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本 书 坚持 以 大 数据 基础 和 应 用 为 主导 的 编写 原则 ,理论 联系 实际 ,并 通过 大 量 实例 循序 渐进 地 为 读 
者 介绍 了 进行 大 数据 实践 所 涉及 的 各 类 知识 。 为 了 更 好 地 帮助 读者 在 短 时 间 内 掌握 大 数据 基础 理论 知 
识 和 实践 能 力 ,全 书 的 基础 知识 介绍 清晰 ,理论 联系 实际 ,具有 很 强 的 操作 性 ,并 提供 了 大 量 通过 测试 可 
运行 的 完整 实例 ,这 些 实例 都 给 出 了 设计 步骤 ,代码 详解 及 程序 运行 结果 ,对 于 容易 出 现 问 题 的 地 方 , 则 
以 * 注 ”的 方式 介绍 常用 的 技巧 和 注意 事项 。 另 外 本 书 的 配套 资料 可 从 清华 大 学 出 版 社 网 站 (www. tup. 
com. cn) 上 下 载 。 

本 书 可 作为 计算 机 专业 的 本 科 生 和 研究 生 的 大 数据 基础 教材 ,也 可 作为 大 数据 技术 培训 、Hadoop 
应 用 开发 和 运行 维护 人 员 的 必 备 参 考 书 。 


本 书 封面 贴 有 清华 大 学 出 版 社 防伪 标签 ,无 标签 者 不 得 销售 。 
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为 什么 开发 深入 浅 出 系列 丛书 ? 

目的 是 从 读者 角度 写 书 , 开 发 出 高 质量 的 、 适 合 阅读 的 图 书 。 

“不 积 中 步 , 无 以 至 千里 ;不 积 小 流 , 无 以 成 江海 。” 知 识 的 学 习 是 一 个 逐渐 积累 的 过 
程 ,只 有 坚持 系统 地 学 习 知 识 , 深 入 浅 出 ,坚持 不 懈 , 持 之 以 恒 , 才 能 把 一 类 技术 学 习 好 。 
坚持 的 动力 源 于 所 学 内 容 的 趣味 性 和 讲法 的 新 疾 性 。 

计算 机 课程 的 学 习 也 有 一 条 隐 含 的 主线 , 那 就 是 “提出 问题 一 分 析 问题 一 建立 数学 模 
型 一 建立 计算 模型 一 通过 各 种 平台 和 工具 得 到 最 终 正确 的 结果 ”, 培 养 计算 机 专业 学 生 的 
核心 能 力 是 “面向 问题 求解 的 能 力 ”。 由 于 目前 大 学 计算 机 本 科 生 培养 计划 的 特点 ,以 及 
受 教学 计划 和 课程 设置 的 原因 ,计算 机 科学 与 技术 专业 的 本 科 生 很 难 精通 掌握 一 门 程序 
设计 语言 或 者 相关 课程 。 各 门 课程 设置 比较 孤立 ,培养 的 学 生 综 合 运用 各 方面 的 知识 能 
力 方面 有 和 欠缺。 传统 的 教学 模式 以 传授 知识 为 主要 目的 ,能 力 培养 没有 得 到 充分 的 重视 。 
很 多 教材 受 教学 模式 的 影响 ,在 编写 过 程 中 ,偏重 概念 讲解 比较 多 ,而 忽略 了 能 力 培养 。 
为 了 突出 内 容 的 案例 性 、 解 感性 、 可 读 性 、 自 学 性 ,本 套 书 努力 在 以 下 方面 做 好 工作 。 


1. 案例 性 


所 举 案 例 突出 与 本 课程 的 关系 ,并 且 能 恰当 反映 当前 知识 点 。 例 如 ,在 计算 机 专业 
中 ,很 多 高 校 都 开设 了 高 等 数学 、 线 性 代数 、 概 率 论 ,不 言 而 喻 ,这 些 课程 对 于 计算 机 专业 
的 学 生来 说 是 非常 重要 的 ,但 就 目前 对 不 少 高 校 而 言 ,这 些 课程 都 是 由 数学 系 的 老师 讲 
授 , 教 材 也 是 由 数学 系 的 老师 编写 ,由 于 学 科 背 景 不 同和 看 待 问题 的 角度 不 同 ,在 这 些 教 
材 中 基本 都 是 纯 数 学 方面 的 案例 ,作为 计算 机 系 的 学 生来 说 ,学 习 这 样 的 教材 缺少 源 动力 
并 且 比较 乏味 , 究 其 原因 ,很 多 学 生 不 清楚 这 些 课 程 与 计算 机 专业 的 关系 是 什么 。 基 于 
此 ,在 编写 这 方面 的 教材 时 ,可 以 把 计算 机 上 的 案例 加 入 其 中 ,例如 ,可 以 把 计算 机 图 形 学 
中 的 三 维 空间 物体 图 像 在 屏幕 上 的 伸缩 变换 、 平 移 变换 和 旋转 变换 在 矩阵 运算 中 进行 举 
例 ;可 以 把 双 机 热 备份 的 案例 融入 到 马尔 科 夫 链 的 讲解 ;把 密码 学 的 案例 融入 到 大 数 分 解 
中 等 。 


2. 解 惑 性 


很 多 教材 中 的 知识 讲解 注重 定义 的 介绍 ,而 忽略 因果 性 、 解 释 性 介绍 ,往往 造成 知 其 
然而 不 知 其 所 以 然 。 下 面 列 举 两 个 例子 。 
CD 读者 可 能 对 OSI 参考 模型 与 TCP/IP 参考 模型 的 概念 产生 混淆 ,因为 两 种 模型 之 
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间 有 很 多 相似 之 处 。 其 实 ,OSI 参考 模型 是 在 其 协议 开发 之 前 设计 出 来 的 ,也 就 是 说 , 它 
不 是 针对 某 个 协议 族 设计 的 ,因而 更 具有 通用 性 。 而 TCP/IP 模型 是 在 TCP/IP 协议 栈 
出 现 后 出 现 的 ,也 就 是 说 ,TCP/IP 模型 是 针对 TCP/IP 协议 栈 的 ,并 且 与 TCP/IP 协议 栈 
非常 吻合 。 但 是 必须 注意 ,TCP/IP 模型 描述 其 他 协议 栈 并 不 合适 ,因为 它 具 有 很 强 的 针 
对 性 。 说 到 这 里 读者 可 能 更 迷惑 了 ,既然 OSI 参考 模型 没有 在 数据 通信 中 占有 主导 地 
位 , 那 为 什么 还 花费 这 么 大 的 篇 幅 来 描述 它 呢 ? 其 实 , 虽 然 OSI 参考 模型 在 协议 实现 方 
面 存在 很 多 不 足 , 但 是 ,OSI 参考 模型 在 计算 机 网 络 的 发 展 过 程 中 起 到 了 非常 重要 的 作 
用 ,并 且 , 它 对 未 来 计算 机 网 络 的 标准 化 规范 化 的 发 展 有 很 重要 的 指导 意义 。 

(2) 再 例如 ,在 介绍 原 码 、 反 码 和 补 码 时 ,往往 只 给 出 其 定义 和 举例 表示 ,而 对 最 后 为 
什么 在 计算 机 中 采取 补 码 表示 数值 ? 浮 点 数 在 计算 机 中 是 如 何 表示 的 ? 字 节 类 型 、 短 整 
型 、 整 型 \ 长 整 型 、 浮 点 数 的 范围 是 如 何 确 定 的 ? 下 面 我 们 来 回答 这 些 问 题 (以 8 位 数 为 
例 ), 原 码 不 能 直接 运算 ,并 且 0 的 原 码 有 十 0 和 一 0 两 种 形式 , 即 00000000 和 10000000， 
这 样 肯定 是 不 行 的 ,如 果 根 据 原 码 计 算 设计 相应 的 门 电路 ,由 于 要 判断 符号 位 ,设计 的 复 
杂 度 会 大 大 增加 ,不 合算 ;为 了 解决 原 码 不 能 直接 运算 的 缺点 ,人 们 提出 了 反 码 的 概念 ,但 
是 0 的 反 码 还 是 有 十 0 和 一 0 两 种 形式 , 即 00000000 和 11111111, 这 样 是 不 行 的 ,因为 计 
算 机 在 计算 过 程 中 ,不 能 判断 遇 到 0 是 十 0 还 是 一 0; 而 补 码 解决 了 0 表示 的 唯一 性 问题 ， 
即 不 会 存在 十 0 和 一 0, 因 为 十 0 是 00000000, 它 的 补 码 是 00000000, —0 是 10000000, , 它 
的 反 码 是 11111111, 再 加 1 就 得 到 其 补 码 是 100000000, 含 去 溢出 量 就 是 00000000。 知 
道 了 计算 机 中 数 用 补 码 表示 和 0 的 唯一 性 问题 后 ,就 可 以 确定 数据 类 型 表示 的 取 值 范围 
了 ，, 仍 以 字 节 类 型 为 例 ,一 个 字 节 共 8 位 ,有 00000000 — 11111111 X 256 种 结果 ,由 于 
1 位 表示 符号 位 ,7 位 表示 数据 位 , 正 数 的 补 码 好 说 ,其 范围 从 00000000~011111111, Bp 
0 一 127; 负 数 的 补 码 为 10000000 一 11111111, 其 中 ,11111111 为 一 1 的 补 码 ,10000001 为 
一 127 的 补 码 ,那么 到 底 10000000 表示 什么 最 合适 呢 ? 8 位 二 进 制 数 中 ,最 小 数 的 补 码 形 
式 为 10000000; 它 的 数值 绝对 值 应 该 是 各 位 取 反 再 加 1, 即 为 01111111 十 1 一 10000000 一 
128, 又 因为 是 负数 ,所 以 是 一 128, 即 其 取 值 范围 是 一 128 一 127。 


3. 可 读 性 


书 的 内 容 要 深入 浅 出 ,使 人 爱 看 、 易 懂 。 一 本 书 要 做 到 可 读 性 好 ,必须 做 到 “ 善 用 比 
喻 ,实例 为 王 ”。 什 么 是 深入 浅 出 ? 就 是 把 复杂 的 事物 简单 地 描述 明白 。 把 简单 事情 复杂 
化 的 是 哲学 家 ,而 把 复杂 的 问题 简单 化 的 是 科学 家 。 编 写 教材 时 要 以 科学 家 的 眼光 去 编 
写 ,把 难 懂 的 定义 ,要 通过 图 形 或 者 举例 进行 解释 ,这 样 能 达到 事半功倍 的 效果 。 例 如 ,在 
数据 库 中 ,第 一 范式 、 第 二 范式 、 第 三 范式 .BC 范式 的 概念 非常 抽象 ,很 难 理解 ,但 是 ,如 
果 以 一 个 教务 系统 中 的 学 生 表 、 课 程 表 、 教 师表 之 间 的 关系 为 例 进行 讲解 ,从 而 引出 范式 
的 概念 ,学 生 会 比较 容易 接受 。 再 例如 ,在 生物 学 中 ,如 果 纯 粹 地 讲解 各 个 器 官 的 功能 会 
比较 乏味 ,但 是 如 果 提出 一 个 问题 ,如 人 的 体温 为 什么 是 37C? 以 此 为 引子 引出 各 个 器 
官 的 功能 效果 要 好 得 多 。 再 例如 ,在 讲解 数据 结构 课程 时 ,由 于 定义 多 ,表示 抽象 ,这 样 达 
不 到 很 好 的 教学 效果 ,可 以 考虑 在 讲解 数据 结构 及 其 操作 时 用 程序 给 予 实现 ,让 学 生 看 到 
直接 的 操作 结果 ,如 压 栈 和 出 栈 操作 ,可 以 把 PUSHO fe POP() 操 作 实 现 , 这 样 效 果 会 好 
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很 多 ,并 且 会 激发 学 生 的 学 习 兴 趣 。 
4. 自学 性 


一 本 书 如 果 适 合 自学 学 习 , 对 其 语言 要 求 比较 高 。 写 作风 格 不 能 枯燥 无 味 , 让 人 看 一 
眼 就 拒 人 千里 之 外 ,而 应 该 是 风趣 、 幽 默 , 重 要 知识 点 多 举 实际 应 用 的 案例 ,说 明 它 们 在 实 
际 生 活 中 的 应 用 ,应 该 有 画龙点睛 的 说 明和 知识 背景 介绍 ,对 其 应 用 需要 注意 哪些 问题 等 
都 要 有 提示 等 。 

一 书 在 手 , 从 第 一 页 开始 的 起 点 到 最 后 一 页 的 终点 ,如 何 使 读者 能 快乐 地 阅读 下 去 并 
获得 知识 ? 这 是 非常 重要 的 问题 。 在 数学 上 ,两 点 之 间 的 最 短 距 离 是 直线 。 但 在 知识 的 
传播 中 ,使 读者 感到 “阻力 最 小 ”的 书 才 是 好 书 。 如 同 自然 界 中 没有 直流 的 河流 一 样 ,河水 
在 重力 的 作用 下 一 定 沿 着 阻力 最 小 的 路 径 向 前 进 。 知 识 的 传播 与 此 相同 ,最 有 效 的 传播 
方式 是 传播 起 来 损耗 最 小 ,阅读 起 来 没有 阻力 。 

是 为 序 。 

欢迎 老师 投稿 : bailj@tup. tsinghua. edu. cn, 
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随 着 互联 网 的 快速 发 展 以 及 云 计算 、 物 联网 和 移动 互联 网 等 新 一 代 信 息 技术 的 广泛 
应 用 ,全 球 数 据 总 量规 模 呈 指数 级 增长 。 根 据 麦 肯 锡 全 球 研究 院 (MGI) 预测 : 目前 ,全 球 
数据 总 量规 模 已 达到 ZB( 泽 字 节 ) 级 别 ;* 预 计 到 2020 年 ,人 类 所 产生 的 数据 量 将 超过 
40ZB(4X1083GB)。 因 此 ,新 一 轮 的 信息 消费 热潮 已 爆发 ,大 数据 时 代 已 经 悄然 来 到 人 们 
身边 。 

大 数据 无 疑 是 当前 社会 发 展 的 热点 ,如 何 借助 大 数据 技术 来 改变 企业 信息 化 建设 的 
现状 ,如 何 利 用 大 数据 进行 商业 模式 ,业务 模式 及 经 营 模式 的 创新 和 变革 ,是 当下 迫切 需 
要 解决 的 问题 。 这 就 要 求 我 们 掌握 好 大 数据 技术 ,为 企业 信息 化 建设 添砖加瓦 。 由 于 大 
数据 技术 对 个 人 的 综合 能 力 要 求 较 高 ,而 对 于 初学 者 来 说 还 不 知道 如 何 进入 大 数据 殿堂 。 
本 书 为 读者 打开 了 大 数据 领域 的 大 门 ,帮助 初学 者 建立 大 数据 的 基本 概念 、 大 数据 思维 、 
大 数据 基础 技术 。 在 读者 掌握 了 这 些 基 础 知识 之 后 ,再 结合 大 量 的 代码 实例 对 各 个 知识 
点 进行 深入 浅 出 的 讲解 ,使 读者 可 以 在 掌握 大 数据 各 项 技术 的 基础 上 ,结合 实际 应 用 项 目 
进行 大 数据 实践 。 全 书 共 分 为 10 章 , 每 章 的 内 容 简介 如 下 。 

第 1 章 : 帮助 读者 更 好 地 认识 和 了 解 大 数据 发 展 历程 ,大 数据 的 基本 概念 及 特征 ,大 
数据 与 传统 数据 在 分 析 和 处 理 方式 上 的 区 别 , 大 数据 的 价值 ,大 数据 安全 与 隐私 保护 方面 
的 内 容 。 

第 2 章 : 介绍 要 进行 大 数据 实践 所 涉及 的 一 些 关 键 技术 ,如 大 数据 采集 与 预 处 理 技 
术 、 大 数据 存储 与 管理 技术 、 大 数据 分 析 与 挖掘 技术 、 大 数据 应 用 与 展现 技术 。 

第 3 章 : 由 于 Hadoop 已 成 为 企业 大 数据 应 用 的 事实 标准 ,因此 本 章 内 容 以 Hadoop 
为 基础 ,介绍 基于 Hadoop 的 大 数据 生态 系统 的 发 展架 构 以 及 构建 过 程 等 内 容 。 

第 4 一 9 章 : 分 别 讲解 Hadoop 生态 系统 中 各 个 组 件 的 基本 原理 、 体 系 构架 ,以 及 具 
体 实例 等 内 容 。 

第 10 章 : 介绍 如 何 结合 行业 特点 ,利用 开源 的 大 数据 相关 产品 ,进行 大 数据 产品 的 
设计 、 开 发 .部 署 等 过 程 ,并 以 互联 网 和 智慧 交通 行业 的 大 数据 应 用 案例 为 基础 ,来 为 读者 
说 明 大 数据 如 何 展开 行业 应 用 以 及 大 数据 在 行业 应 用 的 价值 。 

另外 ,本 书 最 后 还 添加 了 几 个 附录 ,如 Hadoop 默认 端口 及 作用 、Hadoop 1. 0 5 
Hadoop 2. 0 属性 名 称 变化 对 比 .HBase 和 Hive 默认 配置 说 明 。 本 书 配套 的 附件 主要 由 
Demo, Hadoop-2. 6. 0-API, HadoopWorksapces、Softwares 和 VMwareHadoop 文件 夹 组 
成 。 其 中 ,Demo 目录 中 包括 HDFS, HBase, YARN, Mahout € Hadoop 组 件 的 代码 示 
例 ;Hadoop-2. 6.0-API 目录 中 的 index. html 可 查看 Hadoop 所 有 类 及 功能 说 明 , 帮 助 读 
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者 进行 Hadoop 二 次 开发 ;HadoopWorksapces 目录 中 的 每 个 文件 夹 都 是 一 个 Eclipse 项 
目 工 程 ,读者 将 项 目 导 入 到 Eclipse 中 查看 和 运行 工程 ;Softwares 目录 中 包括 Hadoop £ 
态 系 统 的 基本 组 件 \Eclipse IDE 及 Hadoop 的 Eclipse 插件 等 ,方便 读者 进行 搭建 大 数据 
平台 及 二 次 开发 ;VMwareHadoop 目录 为 Hadoop 集群 中 的 Masterl. Hadoop, Master2. 
Hadoop, Slavel. Hadoop, Slave2. Hadoop 和 Slave3. Hadoop 节点 ,读者 可 通过 VMware 
工具 直接 导入 查看 已 搭建 好 的 Hadoop 集群 。 本 书 的 附件 可 从 清华 大 学 出 版 社 官网 进行 
下 载 。 

本 书 由 宋 智 军 编著 ,同时 感谢 中 国电 子 科技 集团 公司 第 二 十 八 研究 所 的 夏 耘 、 张 春 
晖 、 高 翔 , 刘 文 、. 常 庆 龙 . 许 家 尧 、 曹 博 琦 、 丁 县 等 给 予 的 帮助 和 支持 。 同 时 非常 感谢 清华 大 
学 出 版 社 的 广大 员工 ,他 们 为 本 书 的 选 题 策划 、 编 辑 加 工 和 出 版 发 行 付出 了 辛勤 的 劳动 。 
由 于 编者 水 平 有 限 , 加 之 时 间 仓 促 , 书 中 难免 有 疏 漏 和 不 足 之 处 ,县 请 专家 和 广大 读者 
指正 。 


REE 


2.2 


1-9 1 本 REN EEEE P EAR E 
1.2.2. 大 数据 的 关键 特征 
大 数据 与 传统 数据 的 区 别 enn nmm nne enne 
大 数据 的 核心 价值 …… 
大 数据 安全 与 隐私 保护 … 
1.5.1 基础 设施 安全 … e 
EEE e T T E 
1.5.3 数据 治理 eH l3 


L1-i-L 3 1. m 15 
JOBRGE E 5S PEB mmm mH 15 
pd T. DE 


2,4 Scribe «e 17 


1 
2 
2.1.3 Kafka pp 19 
4 
5 


€ 300600 2 


Flume ee 


2:1. 
JCBCRAE MES AE E E nennen nennen 22 
AP PO OPY as sss 
Tr ——X— 
大 数据 分 析 与 挖掘 技术 …………… 

2. 3. 1 传统 数据 分 析 与 挖掘 方 法 … ^ 
2. 3.2 大 数据 分 析 与 挖 气 方 法 ee 


Time Tunnel 


QC, sxxsuxus 


3.2 
3.3 


3.5 


3.6 


4.4 
4.5 


2.3.3 ”大 数据 分 析 与 按 气 框架 nnm mme 
SUERU T re RR 
"UNT ——— 
i 


基于 Hadoop 的 大 数据 生态 系统 pp 


Hadoop 概述 «ee He nennen 
3.1.1 Hadoop 发 展 历 程 
3.1.2 Hadoop 特点 

3.1.3 Hadoop 核心 思想 
Hadoop 家 族 成 员 …… 

Hadoop 生态 系统 .…… 

3.3.1 Hadoop 1.0 生态 系统 … 
3 es 0 生态 系统 … 
Hadoop 集群 架构 e -- 
3.4.1 Hadoop 1. 0 生态 系统 的 集群 架构 … ——" 
3.4.2. Hadoop 2. 0 /E & E Et RU AE RERBA ene 
Maton s aie Ay S "————— E E E 
Hadoop A ERSE aaa 
3.6.2 Hadoop 部 署 


分 布 式 文件 系统 HDFS .pp 


HDFS 基本 组 成 … 
4.2]. 数据 块 
4.2.2 元 数据 节点 © 
4.2.4 数据 节点 
HDFS 体系 架构 … sss ee 
4.3.1 Hadoop 1.0 生态 系统 中 HDFS 体系 架构 ee e rerent ererrr restet 
4.3.2 Hadoop 2. 0 生态 系统 中 HDFS 体系 架构 ee e e 
HDFS 核心 功能 - —— — 

4.5.1 RPC Interface 


gx QS 


Un 


5.4 


5.5 


4. 
4. 
4. 


5.2 
S; 
5. 
HDFS 安全 机 制 een 


3 
4 


4.6.1 


4.7.1 
4.7.2 
4.7.3 
4.7.4 


4.8.1 


4.8.2 适用 场景 
TE E Y o iE LEM 


4.9.1 


分 布 式 计 算 框架 MapReduce pp 


MapReduce 原理 TETTETTETTETTETTETTETTETTETTETTETTETTETTETIETTETTETTETTETTETTETTETTETT 


4.10.1 
4.10.2 
4.10.3 
4.10.4 


RPC Client 
RPC Server 
RPC 通信 实现 


TR AME C 2 1 S ca sasayasaagassasswakaysasaussustassqqayaaSssa, 
HDFS 容错 机 制 … 
E L 2 P ERT A E A 
aa E E E E 
HDFS Federation :pp 


快照 原理 … 


dfsadmin 命令 
Web 接口 
HDFS API 


MapReduce 框架 …… 
5.3.1 


5.4.1 


5. 


5 
5. 
5 


m m m 


1 


2 
3 
4 


Hadoop 1. 0 生态 系统 中 MapReduce HEH --......... a. asasssssssssss 
5.3.2  Hadoop 2.0 EER tr MapReduce ME- 
MapReduce 开发 环境 e 
搭建 MapReduce 开发 环境 pp 
5.4.2 开发 MapReduce 应 用 程序 - 

MapReduce 编程 过 程 … 
5. 


InputFormat …- 
Map 

Combine/Partition 
Reduce 


* 109 
: 110 
-Il 
* 115 
116 
119 
` 123 
123 
125 
132 
140 
144 
”144 
* 145 
147 
150 
150 
153 
155 
155 
=- 157 
: 158 
: 160 


* 164 


164 
165 
: 166 
166 
167 
: 169 
: 169 
* 172 
* 178 
- 179 
: 182 
: 184 
: 186 


QC 2 soxxuxus 


5.6 


TS 


5.5.5 QutpütFormat Ta 187 
MapReduce Jf Jt SE fil ees bei ON 
5.6.1 MapReduce 编程 

5.6.2 实例 解析 …………… 


资源 管理 框架 YARN ee 203 


YARN 概述 … 
YARN 体系 架构 … 
6.2.1 ResourceManager «Mee 205 
6. 2.2 NodeManager "Perm 209 
6.2.3  ApplicationMaster «HMM 209 
[328 WEISE oa ZJO 
YARN 通信 机 制 … 
YARN EAP usu oett tette tope pP AA nardo Anat aaa Dae 
YARN ASPH veeeieccssseeacseseeseeecte ace sesetse vs desee a 918 
6.7.1 FIFO Scheduler ++... raso orte t eene ee 220 
6.7.2 Fair Scheduler ++: 
6.7.3 Capacity Scheduler «mmm 227 
"frt YARN E3&4TUHEAR nee ee 231 
YARN 编程 实例 … 
G 9 5 Dmitri 


分 布 式 列 存储 数据 库 HBase ee 


HBase 概述 ee 238 
HBase 体系 架构 … 
HBase 安装 配置 44 
7.4.2 安装 HBase 
7.4.3 配置 HBase 
TAA JAP HBase LLL 948 
Hbase LU D c 


Bx QIS 


g< 


T 


6 


7 


7.5.2 物理 视图 …… 
HBase 关键 技术 

7.6.1 HRegion 定位 
7.6.2 HRegion 分裂 
7.6.3 HBase 读 写 机 制 
HBase 交互 接口 eem 
7.7.1 Native Java API 
7.7.2 HBase Shell ~ 
HBase 快照 机 制 e eee 


数据 仓库 Hive ppp 272. 


Hive OM 
Hive 体系 架构 
Hive 安装 配置 ……… 
8.4.1 
8.4.2 
8.4.3 
8.4.4 WU Hive cem enne nennen nnn nnno nenne 
8.6.1 基本 数据 类 型 … 
8.6.2 复杂 数据 类 型 …… eterne 
Hive PM GEM AE eerte 

8.8.1 关系 运算 符 … 
8. 8.2 算术 运算 符 ………………… 
8. 8.3 ”逻辑 运算 符 ………………… 
Hive 内 置 函 数 … teretne err eene 
8.9.1 BD EC e 
8.9.2 HEJ ee MMMHMMHMHHMHeHHeHeHHeHMHeHeHe 303 


QC», sxxuxus 


sd ABA MEE S E E E ag0b 
8.10 Hive 实例 «eee 306 


ERR ign Ur5i2i8 Maheut pp 308 


9.1 Mahout jË — eH 308 
9.2 Mabhout 安装 配置 
9.2.1 Mahout 安装 
9.2.2  Mahout 配置 MH 309 
9.2.3 Mahout 测试 MH 310 
9.3 Mahout 算法 集 ---- EE 
9.4 分 类 算法 … 
9.4.1 逻辑 回归 : 
9. 4.9: LET SUA 
9.5.1 Canopy XE eH HH] HMM ee eg gg nm ne 319 
9.5.2  K-means RÆ es 
9.7.2. MMBUBETE RE m HH 325 


pit 13: 331 


10.1.2. 应 用 现状 
10.1.3 RREH- 
互联 网 大 数据 应 用 …… Ue 
2593 hoa iy aasan u te ett neos bv ace tee eame E a7 
AEE ANA E E A i906 
医疗 行业 大 数据 应 用 、 e 

智慧 交通 大 数据 应 用 
KEEN ARP ee e 
10.7.1 互联 网 大 数据 应 用 案例 ee 341 
10.7.2 智慧 交通 大 数据 应 用 案例 -347 


OE EE. 
- O0 m = o t 


大 数据 是 继 云 计 算 , 物 联网 之 后 信息 技术 产业 领域 的 又 一 重大 技术 革新 。 大 数据 让 
人 们 以 一 种 新 的 数据 处 理 模式 对 结构 化 、 半 结构 化 以 及 非 结构 化 的 海量 数据 进行 分 析 , 从 
而 获得 更 强 的 决策 力 和 洞察 力 。 本 章 内 容 虽 在 帮助 读者 更 好 地 认识 和 了 解 大 数据 发 展 历 
程 ,大 数据 的 基本 概念 及 特征 ,大 数据 与 传统 数据 在 分 析 和 处 理 方式 上 的 区 别 , 大 数据 现 
状 及 发 展 趋势 等 。 


1.1 大 数据 发 展 历程 


大 数据 的 概念 并 不 是 突然 出 现 的 ,而 是 IT 技术 发 展 到 一 定 阶段 的 必然 产物 。 以 下 
是 大 数据 发 展 过 程 中 一 些 具 有 里 程 碑 意 义 的 事件 ,以 及 属于 大 数据 概念 进化 历程 中 的 一 
些 * 第 一 次 ”或 “新 发 现 " 等 。 

早 在 2008 年 9 月 ,国际 顶级 期 刊 Nature 就 推出 了 Big Data PU ,并 邀请 一 些 研 
究 人 员 和 企业 家 预测 大 数据 所 带 来 的 革新 。 同 年 ,计算 社区 联盟 (Computing Community 
Consortium) 发 表 了 报告 Big-Data Computing : Creating revolutionary breakthroughs 
in commerce , science, and society ? ,阐述 了 在 数据 驱动 的 研究 背景 下 ,解决 大 数据 问题 
所 需 的 技术 以 及 在 商业 、 科 研 和 社会 领域 所 面临 的 一 些 挑 战 。 

2011 年 2 月 ,国际 顶级 期 刊 Science 推出 Dealing with Data 专刊 趾 , 主 要 围绕 着 科 
学 研究 中 大 数据 的 问题 展开 讨论 ,专题 中 的 文章 既 强 调 了 数据 洪流 所 带 来 的 挑战 ,也 强调 
了 如 果 人 们 能 够 更 好 地 组 织 和 访问 数据 ,那么 所 能 抓 住 和 实现 的 机 遇 。 从 而 说 明 大 数据 
对 于 科学 研究 的 重要 性 。 全 球 知 名 的 咨询 公司 麦肯锡 (McKinsey) 在 同年 5 月 份 发 布 了 
一 份 关于 大 数据 的 详尽 报告 Big data: The next frontier for innovation , competition, 
and productivity ,对 大 数据 的 影响 、 关 键 技 术 和 应 用 领域 等 进行 了 详细 的 分 析 。AMD 
公司 在 同年 6 月份 主办 的 IDC 白皮书 Big Data: What It is and Why You Should 
Care rp ,强调 了 大 数据 可 以 用 来 从 海量 数据 中 高 效 地 提取 价值 ,使 高 速 的 采集 、 发 现 、 分 
析 数 据 成 为 可 能 。 

2012 年 1 月 , 达 沃 斯 世界 经 济 论坛 特别 针对 大 数据 发 布 了 Big Data, Big Impact : 
New Possibilities for International Development 报告 ,该 报告 重点 关注 了 个 人 产生 的 
移动 数据 与 其 他 数据 的 融合 与 利用 ,以 及 在 新 的 数据 产生 方式 下 ,如 何 更 好 地 利用 数据 来 
产生 良好 的 社会 效益 。 同 年 3 月 ,美国 二 十 多 位 数据 管理 领域 的 知名 专家 从 专业 的 研究 
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角度 出 发 ,经 过 约 三 个 月 的 深入 研讨 ,撰写 并 发 布 了 Challenges and Opportunities with 
Big Data 白皮书 中 ,文章 阐述 了 大 数据 的 产生 ,分 析 了 大 数据 处 理 流水 线 的 各 个 阶段 , 指 
出 了 其 中 的 诸多 技术 挑战 ,并 提供 了 重要 的 解决 思路 。 与 此 同时 ,美国 政府 发 布 了 Big 
Data Research and Development Initiative!? , 旨 在 通过 推动 和 改善 与 大 数据 相关 的 收 
集 、 组 织 和 分 析 工 具 及 技术 ,提升 从 海量 和 复杂 的 数据 集中 获取 知识 和 洞察 分 析 能 力 。 美 
国 将 大 数据 作为 国家 级 的 战略 ,其 在 经 济 社会 发 展 中 的 重要 地 位 可 见 一 斑 。 同 年 7 月 , 联 
合 国 的 创新 倡议 项 目 Global Pulse 发 布 了 Big Data for Development : Opportunities & 
Challenges VA Wc i? ,指出 大 数据 促 社会 发 展 , 对 于 全 世界 是 一 个 历史 性 的 机 遇 , 可 以 利 
用 大 数据 造福 人 类 。 

进入 2013 年 ,大 数据 已 成 为 热门 话题 ,并 在 越 来 越 多 的 领域 当中 逐渐 得 到 广泛 的 应 
用 。 实 力 雄 厚 的 传统 IT 企业 及 互联 网 巨头 已 通过 对 大 数据 的 存储 、 挖 掘 分 析 \ 大 数据 治 
理 等 方面 进入 到 大 数据 领域 中 掘 金 。 大 数据 咨询 服务 Big Data Group 通过 评估 上 百 家 
提供 大 数据 服务 的 公司 绘制 了 大 数据 产业 生态 地 图 2013 版 ,将 大 数据 产业 生态 划分 为 三 
个 层次 : 大 数据 应 用 、 大 数据 基础 设施 和 大 数据 技术 ,如 图 1.1 所 示 。 
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1.1 2013 年 大 数据 产业 地 图 
(图 片 来 源 : http://www. bigdatalandscape. com/) 


l. 大 数据 应 用 


目前 大 数据 发 展 处 于 初级 阶段 ,大 数据 应 用 进程 也 相对 缓慢 ,主要 是 互联 网 领先 ,其 
他 领域 仍 在 探索 中 。 从 图 1. 1 中 可 以 看 到 ,一些 公司 开发 出 了 大 数据 通用 应 用 ,例如 大 数 
据 可 视 化 和 分 析 工 具 、 大 数据 商业 智能 工具 或 数据 服务 等 。 还 有 一 些 大 数据 公司 开发 出 
了 面向 行业 用 户 的 垂直 应 用 。 未 来 大 数据 还 将 在 更 多 行业 得 到 广泛 应 用 ,例如 医疗 、 能 
源 、 电 信 运 营 、 制 造 业 ,金融 零售 业 等 。 
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2. 大 数据 基础 设施 


大 数据 的 基础 设施 不 只 是 简单 的 物理 基础 服务 器 、 存 储 设备 等 ,主要 是 指 大 数据 平台 
PaaS 层 的 基础 设施 ,如 数据 采集 、 存 储 、 数 据 集成 .数据 并 行 处 理 和 数据 分 析 等 基础 的 平 
台 层 能 力 。 


3. 大 数据 技术 


大 数据 技术 包括 数据 采集 ,数据 存 取 、 数 据 处 理 , 统 计 分 析 、 数 据 挖掘 、 模 型 预测 ,结果 
呈现 等 技术 。 目 前 ,Hadoop 已 经 确立 了 其 作为 大 数据 生态 系统 基石 的 地 位 。Hadoop HE 
架 是 由 Java 实现 的 , 它 可 以 对 分 布 式 环境 下 的 大 数据 以 一 种 可 靠 高效. 可 伸缩 的 方式 
处 理 。 

到 目前 为 止 ,大 数据 市 场 仍 处 于 初级 阶段 ,也 是 形成 大 数据 市 场 竞 争 格局 的 关键 时 
期 ,企业 的 大 数据 应 用 开始 从 概念 验证 和 实验 走向 真正 的 商业 化 道路 ,如 TBM, Oracle, 
EMC, SAP 等 国际 IT 巨头 提供 满足 客户 需求 的 大 数据 解决 方案 ,并 推出 一 体 化 的 集成 设 
备 等 。 


1.2 大 数据 的 定义 及 特征 


121 大 数据 定义 


大 数据 是 一 个 涵盖 多 种 技术 的 概念 , 它 的 诞生 和 发 展 原动力 最 初 来 自 于 互联 网 的 快 
速 发 展 。 然 而 ,对 于 大 数据 的 定义 至 今 都 没有 一 个 被 业界 广泛 采纳 的 明确 定义 ,可 谓 是 仁 
者 见 仁 , 智 者 见 智 。 下 面 给 出 一 些 具有 代表 性 的 大 数据 定义 。 

(1) 麦肯锡 全 球 研究 所 在 其 报告 Big data: The next frontier for innovation , 
com petition. and productivity 中 给 出 的 大 数据 定义 是 : 大 数据 指 的 是 大 小 超出 常规 的 
数据 库 工具 获取 、 存 储 \ 管 理 和 分 析 能 力 的 数据 集中 。 但 它 同 时 强调 ,并 不 是 说 一 定 要 超 
过 特定 TB 值 的 数据 集 才能 算是 大 数据 。 

(2) 在 维基 百科 中 关于 大 数据 的 定义 为 5 : 大 数据 指 的 是 所 涉及 的 资料 量规 模 巨大 
到 无 法 透 过 目前 主流 软件 工具 ,在 合理 时 间 内 达到 撕 取 管理 处理、 并 整理 成 为 帮助 企业 
经 营 决策 更 积极 目的 的 资讯 。 笔 者 认为 ,这 并 不 是 一 个 精确 的 定义 ,因为 无 法 确定 主流 软 
件 工 具 的 范围 ,并 且 可 接受 时 间 也 是 个 概略 的 描述 。 

(3) 互联 网 数据 中 心 (IDC) 从 大 数据 的 4 个 特征 来 定义 中 , 即 海量 的 数据 规模 
(Volume) ,数据 处 理 的 快速 性 (Velocity)、 多 样 的 数据 类 型 (Variety) 数据 价值 密度 低 
(Value), 即 所 谓 的 “4V” 特 性 。 然 而 , IBM 认为 大 数据 还 应 该 具有 其 真实 性 
(Veracity)U? 。 

(4) 全 球 性 的 信息 技术 研究 和 顾问 公司 Gartner 给 出 了 这 样 的 定义 : 大 数据 是 需 
要 新 处 理 模式 才能 具有 更 强 的 决策 力 ,洞察 发 现 力 和 流程 优化 能 力 的 海量 、 高 增长 率 和 多 
样 化 的 信息 资产 。 
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(5) 美国 国家 标准 技术 研究 院 (NIST) 将 大 数据 定义 为 59 : 数量 大 、 获 取 速 度 快 或 形 
态 多 样 的 数据 ,难以 用 传统 关系 型 数据 分 析 方 法 进行 有 效 分 析 ,或 者 需要 大 规模 的 水 平 扩 
展 才 能 高 效 处 理 。 

目前 ,在 对 大 数据 定义 的 问题 上 很 难 达成 一 个 完全 的 共识 ,这 些 定义 都 是 从 大 数据 的 
特性 出 发 ,通过 对 特性 的 阐述 和 归纳 来 描述 大 数据 。 根 据 大 数据 的 内 涵 ,并 结合 业界 对 大 
数据 的 理解 ,在 这 些 定义 中 ,较为 普遍 认同 的 是 大 数据 的 AV 特性 。 在 面 对 实际 问题 时 ， 
不 必 过 度 拘 泥 于 具体 的 定义 之 中 ,在 把 握 4V 定义 的 基础 上 ,适当 考虑 其 他 特性 即 可 。 
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从 上 述 对 大 数据 的 定义 ,提取 出 大 数据 的 4 个 关键 特征 ,分 别 是 : 数据 量 大 
(Volume) ,数据 类 型 多 (Variety) ,处 理 速 度 快 (Velocity) 和 数据 价值 (Value), 即 大 数据 
的 4V 性 ,这 些 特性 使 得 大 数据 区 别 于 传统 的 数据 概念 。 大 数据 的 4V 性 如 图 1.2 所 示 。 


| L S] 


数据 量 大 J | 数据 类 型 多 

BOF 

PJ E) 

80% 秒 级 响应 
= 


C3 
Value ”数据 价值 


1.2 大 数据 的 4V 性 
(图 片 来 源 : http://www. iresearch. cn/report/) 


注 : 初学 者 很 容易 对 “大 数据 ”与 “海量 数据 ”混淆 ,大 数据 和 海量 数据 这 两 个 词汇 都 
是 来 自 英文 ,但 翻译 不 大 相同 。 大 数据 的 英文 译文 是 “big data”, 直 和 白明 了 ;而 海量 数据 则 
是 “large-scale data” X # “vast data”, 字 面 意思 很 明显 ,就 是 规模 很 大 、 量 很 大 的 数据 。 海 
量 数 据 只 强调 数据 的 量 ,而 大 数据 不 仅 用 来 描述 大 量 的 数据 ,还 更 进一步 指出 数据 的 复杂 
形式 、 数 据 的 快速 时 间 特 性 以 及 对 数据 的 分 析 、 处 理 等 专业 化 处 理 ,最 终 获 得 有 价值 信息 
的 能 力 。 


1. 数据 量 大 


大 数据 首先 是 数据 量 大 以 及 规模 的 完整 性 。 全 球 数据 量 正 以 前 所 未 有 的 速度 增长 ， 
数据 的 存储 容量 从 TB 级 别 已 扩大 到 ZB 数量 级 。 随 着 传 感 设备 ,移动 设备 网 络 宽带 的 
成 倍增 加 ,在 线 交 易 和 社交 网 络 每 天 生成 上 百 万 兆 字 节 的 数据 ,数据 规模 也 在 不 断 地 急剧 
增长 。 截 止 到 当前 ,全 球 的 数据 总 量 如 图 1.3 所 示 。 

据 EMC 公布 委托 IDC 调查 的 研究 报告 指出 " ,预计 在 2015 年 ,全 球 数据 总 量 将 会 
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WORLDWIDE INFORMATION GROWTH TICKER 


Bytes of information created since January 1, 2014 


2 811 724 685 471 160 196 251 
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图 1.3 全 球 数 据 总 量 
(图 片 来 源 : http://www. emc. com/leadership/programs/digital-universe. htm) 
有 8X10*GDB 的 数据 量 ,到 2020 年 ,全 球 将 总 共 拥 有 35ZB 的 数据 量 (35ZB 的 数据 量 约 
等 于 地 球 上 沙滩 上 所 有 沙 粒 总 和 的 四 十 多 倍 ) ,如 图 1.4 所 示 。 


2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 
图 1.4 全 球 数据 总 量 预 测 


2. 数据 类 型 多 


大 数据 的 数据 类 型 非常 多 。 如 今 的 数据 类 型 早已 不 是 单一 的 以 文本 为 主 的 结构 化 数 
据 , 随 着 更 多 互联 网 多 媒体 应 用 的 出 现 , 新 型 多 结构 数据 量 也 呈现 爆炸 式 增长 ,诸如 网 络 
日 志 、 电 子 文档 、 电 子 邮 件 、 网 页 音频、 视频 、 图 片 、 地 理 位 置信 息 等 大 量 的 非 结 构 化 数据 
已 经 占 到 了 总 数据 的 很 大 比重 。 据 Gartner Group 最 新 研究 报告 指出 b9 , 近 两 年 产生 的 
数据 量 是 过 去 互联 网 出 现 以 来 所 有 数据 量 的 总 和 :而 随 着 社交 网 络 和 移动 设备 的 普及 , 企 
业 80%% 的 数据 是 非 结 构 化 或 半 结 构 化 的 ,结构 化 数据 仅 有 20%。 同 时 ,全 球 结构 化 数据 
增长 速度 约 为 32% ,而 非 结 构 化 数据 的 增 速 则 高 达 63% 。 随 着 非 结 构 化 数据 的 比重 越 来 
越 大 ,已 逐渐 成 为 大 数据 的 主体 。 
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FE. 结构 化 数据 是 可 以 用 二 维 表 结 构 来 远 辑 表达 实现 的 数据 ,以 传统 的 表格 形式 存 
储 在 数据 库 或 数据 仓库 中 ; 非 结 构 化 数据 就 是 不 方便 用 数据 库 二 维 逻辑 表 来 表现 的 数据 ， 
包括 所 有 格式 的 办 公文 档 、 文 本 、 图 片 HTMIL、XML、 各 类 报表 、 图 像 、 音 频 、 视 频 等 信息 。 
如 果 把 非 结 构 化 数据 再 进行 细 分 ,可 以 分 为 半 结 构 化 数据 和 非 结 构 化 数据 两 种 , 半 结 构 化 
数据 就 是 介 于 完全 结构 化 数据 (如 关系 型 数据 库 \ 面 向 对 象 数据 库 中 的 数据 等 ) 和 完全 无 
结构 的 数据 (如 声音 、 图 像 等 ) 之 间 的 数据 ,HTML、XML、 各 类 报表 等 就 属于 半 结 构 化 数 
据 ;此 时 的 非 结 构 化 数据 就 指 完全 无 结构 的 数据 ,如 音频 、 视 频 等 数据 。 半 结构 化 数据 一 
般 是 自 描述 型 的 ,数据 的 结构 和 内 容 混在 一 起 ,没有 明显 的 区 分 。 


3. 处 理 速 度 快 


大 数据 要 求 数据 处 理 速度 快 ,是 区 别 于 传统 数据 最 显著 的 特征 。 现 实 中 则 体现 在 对 
数据 的 实时 性 需求 上 。 如 今 已 是 ZB 时 代 , 在 如 此 海量 的 数据 面前 ,处 理 数据 的 效率 就 是 
企业 的 生命 。 传 统 的 数据 挖掘 技术 在 如 此 大 的 数据 量 下 无 法 快速 发 现 数据 规律 和 有 价值 
信息 ,必须 要 求 采用 大 数据 的 “ 秒 级 响应 定律 ”, 即 海量 数据 挖掘 分 析 尽 可 能 的 秒 级 响应 。 
否则 ,再 有 价值 的 数据 只 要 过 了 时 效 性 ,也 失去 了 它 存 在 的 意义 。 而 对 大 数据 的 快速 处 理 
分 析 ,将 为 企业 实时 洞察 市 场 变化 .迅速 做 出 响应 、 把 握 市 场 先 机 提供 决策 支持 ,将 成 为 企 
业 提 高 竞争 力 的 关键 。 


4. 价值 密度 低 


大 数据 的 3V 构成 也 导致 其 数据 价值 隐藏 在 海量 数据 之 中 ,往往 表现 为 数据 价值 高 
但 价值 密度 低 的 特点 ,需要 通过 机 器 学 习 、 统 计 模型 以 及 图 算法 等 深入 复杂 的 数据 分 析 
才能 获得 可 对 未 来 趋势 和 模式 提供 预测 性 分 析 的 重要 洞察 力 。 这 些 预测 性 分 析 要 胜 过 传 
统 商业 智能 查询 和 报告 的 结果 。 以 监控 视频 为 例 ,连续 不 间断 监控 过 程 中 ,可 能 有 用 的 数 
据 仅 有 一 两 秒 ,如何 通 过 强大 的 机 器 学 习 等 算法 快速 .实时 地 发 现价 值 .提取 价值 是 目前 
大 数据 背景 下 孤 待 解决 的 难题 之 一 。 


1.3 大 数据 与 传统 数据 的 区 别 


大 数据 是 在 传统 数据 库 学 科 的 分 支 (数据 仓库 与 数据 挖掘 ) 的 基础 上 进一步 发 展 起 来 
的 ,但 两 者 在 数据 存储 数据 分 析 、 数 据 处 理 规模 上 都 有 所 不 同 。 下 面 从 数据 思维 、 数 据 处 
理 以 及 数据 分 析 三 方面 来 介绍 两 者 的 不 同 。 
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大 数据 思维 与 传统 的 数据 思维 有 着 很 大 的 差别 ,传统 的 数据 思维 针对 一 个 问题 往往 
是 命题 假设 型 的 ,并 通过 演绎 推理 来 证 明 自 己 的 假设 是 否 正确 。 这 种 思维 方式 一 般 要 预 
先 设 定好 主题 ,通过 建立 数据 模型 和 元 数据 来 描述 问题 。 同 时 ,需要 理 顺 逻 辑 、 理 解 因果 
关系 ,并 设计 算法 来 得 出 接近 现实 的 结论 。 然 后 ,再 变更 请 求 重 复 上 述 过 程 ( 如 图 1.5 所 
示 )。 例 如 , 某 一 事件 的 发 生 可 能 是 由 于 A、B、C 等 因素 造成 ,并 有 一 定 的 理论 依据 。 在 这 
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种 情况 下 ,就 可 以 通过 传统 的 数据 思维 来 验证 假设 是 否 合理 。 
< 变更 请 求 | 


元 数据 )=>[ 集成 Jo 报告 )e( mem) 
图 1.5 传统 数据 思维 


[ =m Je» 数据 模型 J 


因此 ,针对 传统 的 数据 思维 ,一 个 问题 能 否 得 到 很 好 的 解决 ,取决 于 建 模 是 否 合理 ,各 
种 算法 的 比拼 成 为 决定 成 败 的 关键 。 当 我 们 有 一 个 明确 的 问题 需要 解决 时 ,并 针对 可 能 
发 生 的 状况 有 足够 的 理论 支撑 时 ,采用 传统 的 数据 思维 可 以 有 效 地 解决 该 问题 。 

当 我 们 针对 一 个 没有 预制 假设 的 问题 时 ,传统 的 数据 思维 就 显得 无 能 为 力 。 然 而 ,大 
数据 思维 却 可 以 很 好 地 对 这 类 问题 进行 有 效 的 解决 。 大 数据 思维 在 定义 问题 时 ,没有 预 
制 的 假设 ,而 是 使 用 归纳 推理 的 方法 ,从 部 分 到 整体 地 进行 观察 描述 ,通过 问题 存在 的 环 
境 观 察 和 解释 现象 ,从 而 起 到 预测 的 效果 (如 图 1. 6 所 示 )。 例 如 ,把 最 近 几 年 有 关 重 大 交 
通 事故 的 所 有 数据 收集 到 一 起 ,对 数据 所 能 够 揭示 出 什么 有 价值 的 东西 没有 任何 想法 时 ， 
就 可 以 通过 大 数据 思维 进行 探索 式 的 发 现 ,从 而 可 以 提炼 出 有 价值 的 信息 。 

探索 结果 
数据 源 


识别 模式 
一 个 问题 
优化 模型 


新 问题 
图 1.6 大 数据 思维 
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传统 的 数据 处 理 ( 如 图 1.7 所 示 ) 主 要 是 面向 结构 化 数据 和 事务 处 理 的 关系 型 数据 库 
为 主 ,然后 通过 定向 的 批 处 理 过 程 长 时 间 地 对 数据 进行 提取 、 转 换 和 加 载 (ETL) 等 处 理 ， 
处 理 后 的 数据 是 容易 理解 的 清洗 过 的 ,并 符合 业务 的 元 数据 ,将 这 些 数据 再 加 载 进 入 数 
据 仓 库 进行 相关 性 、 数 据 挖掘 等 分 析 。 对 数据 的 分 析 是 通过 昂贵 的 硬件 (小 型 计算 机 十 磁 
盘 阵 列 ) 或 一 体 机 来 完成 ,如 大 规模 并 行 处 理 (MPP) 系 统 和 /或 对 称 多 处 理 (SMP) 系 统 来 
实现 的 。 这 些 硬件 平台 的 兼容 性 差 ,扩展 性 只 能 达到 TB 级 别 。 

大 数据 处 理 技 术 ( 如 图 1. 8 所 示 ) 具 备 结构 化 、 半 结构 化 和 非 结 构 化 数据 混合 处 理 的 
能 力 , 主 要 是 针对 半 结 构 化 和 非 结构 化 数据 。 这 意味 着 不 能 保证 输入 的 数据 是 完整 的 , 清 
洗 过 的 和 没有 任何 的 错误 。 这 使 它 更 有 挑战 性 ,但 同时 它 提供 了 在 数据 中 获得 更 多 的 洞 
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数据 仓库 
关系 型 数据 库 
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图 1.7 传统 数据 处 理 过 程 


察 力 的 范围 。 大 数据 的 通用 处 理 过 程 包括 数据 的 采集 、 组 织 、 分 析 和 决策 。 
结构 化 、 半 / 非 


结构 化 数据 集群 化 组 织 
=s in 
— - A QN 
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图 1.8 大 数据 处 理 过 程 


在 数据 采集 方面 ,与 传统 的 数据 采集 单一 来 源 不 同 , 主 要 对 来 源 丰 富 且 类 型 多 样 的 庞 
大 的 数据 进行 采集 ,并 存储 在 如 关系 型 数据 库 Oracle、 非 关系 型 数据 库 NoSQL 、 分 布 式 文 
件 系统 HDFS 内 存 数据 库 SAP HANA 等 ,用 户 可 以 通过 这 些 数 据 来 进行 实时 的 查询 和 
处 理工 作 。 采 集 过 程 的 主要 特点 和 挑战 是 并 发 数 高 。 

虽然 采集 端 本 身 会 有 很 多 数据 库 ,但 是 如 果 要 对 这 些 海量 数据 进行 有 效 的 分 析 , 还 是 
应 该 将 这 些 来 自前 端的 数据 导入 到 一 个 集中 的 大 型 分 布 式 数据 库 ,或 者 分 布 式 存储 集群 ， 
并 且 可 以 在 导入 基础 上 做 一 些 简单 的 清洗 和 预 处 理工 作 。 这 些 工 作 可 以 通过 
MapReduce 这 一 并 行 处 理 技术 来 提高 数据 的 处 理 速度 。 

在 大 数据 的 分 析 过 程 方面 ,支持 针对 数据 的 实时 分 析 ` 流 式 分 析 等 。 对 数据 的 分 析 是 
基于 通用 硬件 ,如 普通 的 x86 ,并 不 依赖 高 性 能 、 高 可 靠 性 的 硬件 ,平台 兼容 性 好 ,可 扩展 
性 高 ,可 以 达到 PB 级 别 以 上 。 

在 大 数据 的 决策 过 程 方面 ,就 是 将 在 分 析 中 得 到 的 洞察 付 诸 实施 。 决 策 过 程 主要 是 
在 现 有 的 数据 上 进行 基于 各 种 算法 的 计算 ,从 而 起 到 预测 的 效果 ,实现 一 些 高 级 别 数据 分 
析 的 需求 .预警 可视化 等 。 

i£: MapReduce 是 通过 大 量 廉 价 服务 器 实现 大 数据 的 并 行 处 理 , 对 数据 一 致 性 要 求 
不 高 ,其 突出 优势 是 具有 扩展 性 和 可 用 性 ,特别 适用 于 对 海量 的 结构 化 、 半 结构 化 和 非 结 
构 化 数据 的 混合 处 理 。 
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传统 的 数据 分 析 通 过 数据 抽样 ,并 不 断 改进 抽样 方法 来 提高 样本 的 精确 性 ,从 而 对 整 
体 数据 进行 推算 ,并 竭力 挖掘 数据 之 间 的 因果 关系 ;而 大 数据 分 析 的 对 象 是 全 体 数 据 ,不 
存在 采样 的 不 合理 导致 预测 结果 的 偏差 。 传 统 数据 分 析 的 算法 比较 复杂 ,通常 是 用 多 个 
变量 的 方程 来 追求 数据 之 间 的 精确 关系 ;而 大 数据 分 析 则 考虑 用 简单 的 算法 实现 规律 性 
的 分 析 。 传 统 的 数据 分 析 关 注 的 是 “为 什么 ”的 因果 关系 思维 方式 ,而 大 数据 分 析 关 注 的 
是 “是 什么 ”的 相关 性 关系 , 即 从 海量 数据 中 分 析出 人 类 不 易 感 知 的 关联 性 。 传 统 数 据 分 
析 追 求 的 是 精确 性 , 即 探寻 问题 的 最 终 答 案 ,而 大 数据 分 析 是 基于 海量 数据 分 析 得 出 的 结 
AR ,该 结果 一 般 都 是 一 种 供 决策 参考 的 指向 性 意见 。 下 面 通过 表 1. 1 来 说 明 传统 的 数据 
分 析 和 大 数据 分 析 的 区 别 之 处 。 


表 1.1 传统 数据 分 析 和 大 数据 分 析 


传统 数据 分 析 大 数据 分 析 
分 析 对 象 | 部 分 数据 的 采样 全 部 数据 
分 析 类 型 | 结构 化 数据 结构 化 、 半 / 非 结 构 化 数据 
精确 性 必须 接受 精确 的 、 规 范 化 的 数据 可 以 是 非 精 确 的 、 非 规范 化 的 .不 完整 的 数据 
分 析 算法 | 对 算法 的 要 求 比较 高 算法 简单 有 效 
分 析 结 果 | 注重 因果 关系 更 注重 相关 性 ,而 非 因果 关系 


1.4 大 数据 的 核心 价值 


大 数据 最 有 价值 的 应 用 就 是 预测 性 分 析 , 是 以 问题 为 中 心 ,以 数据 为 基础 ,通过 科学 
地 建立 模型 ,进行 探索 式 建 模 和 发 现 。 因 此 ,大 数据 改变 的 不 仅 是 技术 ,更 是 对 业务 形态 
的 直接 改变 ,将 企业 战略 从 “数据 驱动 ”业务 驱动 转向 “数据 驱动 ”。 

例如 ,互联 网 企业 Google 通过 大 数据 技术 推出 了 一 种 名 为 “谷歌 流感 趋势 "的 工具 
(Google Flu Trend)™ ,并 且 可 以 通过 互联 网 进行 互动 查阅 。 谷 歌 设计 人 员 认 为 ,人 们 
输入 的 搜索 关键 词 代 表 了 他 们 的 即时 需要 ,反映 出 用 户 情 况 。 为 便于 建立 关联 ,设计 人 员 
编 人 流感 关键 词 ,包括 “温度 计 ”“ 流 感 症状 >"“ 肌 肉 疼痛 “胸闷 等。 只 要 用 户 输入 这 些 
关键 词 ,系统 就 会 展开 跟踪 分 析 ,创建 地 区 流感 图 表 和 流感 地 图 。 全 球 每 星期 会 有 数 以 百 
万 计 的 用 户 在 网 上 搜索 健康 信息 。 在 流感 季节 ,与 流感 有 关 的 搜索 会 明显 增多 ;到 了 过 敏 
季节 ,与 过 敏 有 关 的 搜索 会 显著 上 升 ;而 到 了 夏季 ,与 晒 伤 有 关 的 搜索 又 会 大 幅 增 加 。 
Google 流感 趋势 会 根据 汇总 的 Google 搜索 数据 ,近乎 实时 地 对 全 球 当 前 的 流感 疫情 进 
行 估 测 。 为 验证 “谷歌 流感 趋势 "预警 系统 的 正确 性 ,谷歌 多 次 把 测试 结果 与 美国 疾病 控 
制 和 预防 中 心 的 报告 做 比 对 ,证 实 两 者 结论 存在 很 大 相关 性 ,如 图 1.9 所 示 。 

这 些 图 表 显 示 了 根据 历史 查询 所 得 的 不 同 国家 和 地 区 的 流感 估 测 结果 ,以 及 这 些 结 
果 与 官方 的 流感 监测 数据 的 对 比 。 从 图 中 可 以 看 出 ,根据 与 流感 相关 的 Google 搜索 查 
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历史 个 到 数据 查看 以 下 国家 /地 区 的 数据 : | 美国 Y 
美国 流感 疫情 
ATANAN @ Google 流感 趋势 估 测 数据 @ 美国 的 数据 


2004 年 boost 2006 年 Dos — book 2009 年 2010 年 2011 年 2012 年 12013 
Eg: 流感 样 疾病 (ILI) 数据 由 美国 疾病 控制 中 心 提供 。 


1.9 Google 流感 估 测 结果 对 比 
(图 片 来 源 : http://www. google. org/flutrends/intl/zh cn/about/how. html) 


询 所 得 到 的 估 测 结果 ,与 以 往 的 流感 疫情 指示 线 非常 接近 。 当 然 , 过 去 的 表现 并 不 能 保证 
以 后 的 结果 一 定 准 确 。 

这 种 基于 大 数据 的 预测 系统 的 开发 能 及 早 监 测 到 疫情 暴发 的 征兆 ,可 以 显著 减少 患 
病人 数 。 当 有 新 的 流感 病毒 在 特定 条 件 下 形成 后 ,一旦 在 全 球 范围 内 流行 ,就 可 能 会 夺 去 
数 百 万 人 的 生命 (例如 ,1918 年 就 发 生 过 这 种 灾难 )。 而 通过 大 数据 最 新 的 流感 估 测 结果 
可 帮助 相关 人 员 更 好 地 应 对 季节 性 流感 。 

PE: 对 “谷歌 流感 趋势 ”的 工具 (Google Flu Trend) 感 兴趣 的 读者 ,可 以 阅读 美国 ( 自 
然 ) 杂 志 发 表 的 文章 “运用 搜索 引擎 查询 数据 检测 流感 疫情 ”(Detecting influenza 
epidemics using search engine query data) 。 

大 数据 在 互联 网 方面 可 以 对 消费 者 的 行为 进行 预测 。 据 《纽约 时 报 》 首 席 撰 稿 人 
Charles Duhigg 的 一 份 关 于 《公司 如 何 掌 握 你 的 秘密 》(How Companies Learn Your 
Secrets) 中 写 道 "9,“ 据 杜 克 大 学 研究 显示 ,是 习惯 而 非 有 意识 的 决策 促成 了 我 们 每 天 
45% 的 选择 (One study from Duke University estimated that habits. rather than 
conscious decision-making. shape 45 percent of the choices we make every day) ," H 9E f 
解 习惯 的 形成 方式 就 可 以 更 简单 地 控制 它们 。 通 过 数据 分 析 消 费 者 的 行为 便 能 准确 地 预 
测 下 一 步 的 消费 ,例如 国内 的 百度 预测 。 百 度 大 数据 部 通过 对 搜索 数据 的 深度 挖掘 ,发 现 
旅游 相关 词 搜索 数量 和 实际 旅游 人 数 之 间 的 密切 关系 ,并 建立 了 旅游 预测 模型 。 该 模型 
可 以 反映 各 旅游 景点 未 来 的 人 流 趋势 ,可 以 对 旅游 行业 进行 宏观 把 握 和 调控 ,并 可 以 对 目 
的 地 营销 活动 进行 引导 、 对 旅游 人 流 流 向 和 流量 进行 调整 ,如 图 1. 10 所 示 。 

大 数据 的 预测 性 价值 为 互联 网 ,电信 金融、 医疗 制造、 流通 等 提供 了 一 个 前 所 未 有 
的 机 会 ,用 先前 不 能 做 到 的 方式 在 感知 风险 .生成 洞察 、 帮 助 辅助 决策 、 提 高 社会 安全 等 方 
面 起 到 了 不 可 估量 的 作用 。 
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图 1.10 百度 旅游 预测 
(RH ÆW: http: //trends. baidu. com/tour/) 


1.5 大 数据 安全 与 隐私 保护 


大 数据 正 影响 着 人 们 日 常生 活 和 工作 习惯 ,但 随 着 数据 产生 的 速率 、 数 据 来 源 和 格式 
的 多 样 性 ,数据 高 容量 存储 等 特性 ,数据 在 传输 、 存 储 、 管 理 、 数 据 分 析 和 数据 挖掘 等 过 程 
中 存在 着 诸多 安全 风险 和 隐私 保护 问题 。 因 此 ,大 数据 时 代 的 数据 安全 与 隐私 保护 对 传 
统 的 安全 机 制 提出 了 新 的 挑战 ,同时 也 为 信息 安全 领域 带 来 了 新 的 发 展 契 机 。 传 统 的 数 
据 安全 与 隐私 保护 机 制 是 针对 小 规模 的 、 静 态 的 数据 而 定制 的 ,对 于 大 数据 来 说 并 不 适 
合 。 因 此 ,与 传统 的 信息 安全 相 比 ,大 数据 安全 与 隐私 保护 面临 的 主要 挑战 体现 在 以 下 几 
个 方面 。 


151 基础 设施 安全 


基础 设施 安全 包括 支持 大 数据 存储 和 管理 的 公共 基础 设施 .访问 和 使 用 大 数据 的 并 
行 计算 、 数 据 挖掘 等 工具 ,如 硬件 设备 、 云 存储 .NoSQL、Hadoop、MapReduce 等 。 下 面 以 
NoSQL 为 例 简要 分 析 一 下 NoSQL 在 基础 设施 安全 方面 存在 的 漏洞 。 

NoSQL 数据 库 主要 提供 非 关 系 型 数据 存储 的 安全 基础 设施 ,用 来 存储 和 处 理 海量 的 
静态 数据 和 流 数 据 。NoSQL 与 传统 的 关系 型 数据 库 相 比 , 最 显著 的 特点 是 性 能 和 可 扩展 
性 ,同时 也 引 来 了 很 多 NoSQL 的 关键 性 安全 漏洞 ,如 只 能 保证 事务 完整 性 的 软 方 法 、 弱 
身份 认证 机 制 、 低 效率 授权 机 制 、 缺 乏 一 致 性 等 安全 漏洞 。 


1. 无 法 保证 事务 完整 性 


NoSQL 无 法 像 传 统 的 关系 型 数据 库 一 样 保证 事务 的 完整 性 ,但 提供 了 一 种 事务 完整 
性 的 架构 权衡 分 析 的 软 方法 ,能 在 性 能 和 安全 方面 做 出 权衡 和 取舍 ,使 得 体系 结构 在 牺牲 
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安全 的 前 提 下 可 以 不 引入 复杂 的 完整 性 约束 ,从 而 实现 更 好 的 性 能 和 可 扩展 性 。 
2. 弱 身 份 认证 机 制 


NoSQL 使 用 弱 认 证 技术 和 弱 密码 存储 机 制 , 这 种 弱 机 制 容 易 遭 到 各 种 注入 攻击 , 攻 
击 者 可 以 利用 架构 注入 大 量 数据 到 数据 库 , 从 而 导致 数据 库 中 的 数据 损坏 ,使 得 整个 数据 
库 不 可 用 ,如 JSON HE A AUT HE A REST 注入 ,模式 注入 等 。 


3. 低 效率 授权 机 制 


NoSQL 解决 方案 的 授权 机 制 各 不 相同 ,大 多 数 流行 的 解决 方案 是 采用 高 层次 执行 授 
权 , 而 不 是 在 较 低层 执行 , 即 授权 是 在 数据 库 级 别 , 而 不 是 集合 级 别 执行 ,没有 在 架构 中 集 
成 基于 角色 的 访问 控制 机 制 。 


4. 缺乏 一 致 性 


NoSQL 并 不 遵循 CAP 定理 (一 致 性 、 可 用 性 和 可 分 区 容忍 性 ) ,在 任意 给 定时 间 用 户 
不 能 保证 一 致 的 结果 ,因为 每 个 参与 节点 可 能 没有 跟 保 持 最 新 数据 的 节点 完全 同步 ,从 而 
有 可 能 导致 群集 节点 之 间 的 负载 均衡 。 

NoSQL 目前 的 关键 性 安全 漏洞 主要 是 因为 NoSQL 的 安全 并 没有 在 设计 阶段 处 理 ， 
只 是 由 NoSQL 数据 库 的 开发 人 员 在 中 间 件 中 骨 入 安全 ,只 有 一 个 非常 薄 的 安全 层 , 而 且 
依赖 于 外 部 执行 机 制 所 造成 的 。 因 此 ,在 设计 NoSQL 时 应 考虑 到 数据 的 完整 性 可 以 通 
过 应 用 程序 或 中 间 件 层 实施 ;数据 存储 方面 应 该 考虑 不 使 用 明文 进行 传输 ,而 使 用 加 密 或 
使 用 安全 散 列 算法 等 ;身份 认证 方面 应 该 在 已 采用 的 技术 基础 上 基于 硬件 设备 的 加 密 / 解 
密 速度 更 快 ; 在 授权 机 制 方面 应 该 考虑 支持 可 插 拔 认证 模块 以 具备 环境 需求 的 所 有 级 别 
的 安全 实施 。 


152 数据 隐私 


当 人 们 在 感受 大 数据 所 带 来 的 巨大 应 用 潜力 和 空间 的 同时 ,也 带 来 了 新 的 数据 隐私 
问题 。 大 数据 潜在 地 允许 隐私 侵犯 .侵袭 式 营销 、 用 户 消费 习惯 挖掘 、 群 组 特征 发 现 等 行 
为 ,这 使 得 数据 隐私 问题 越 来 越 严重 。 如 果 仅 仅 为 了 保护 隐私 就 将 所 有 的 数据 都 加 以 隐 
藏 ,那么 又 无 法 体现 数据 的 真正 价值 ;而 数据 公开 必然 会 对 数据 隐私 造成 一 定 的 影响 。 因 
此 ,在 大 数据 时 代 ,数据 隐私 是 无 法 回避 的 现实 问题 。 我 们 只 能 通过 技术 手段 和 建立 隐私 
机 制 ,尽量 防止 意外 的 隐私 披露 。 


1. 隐私 保护 机 制 


目前 用 户 数据 的 收集 存储 、 管 理 和 使 用 均 缺 乏 规范 的 管理 和 监管 ,主要 依靠 数据 拥 
有 者 的 自律 ,而 且 用 户 无 法 确定 自己 的 隐私 数据 用 途 , 无 法 决定 自己 的 数据 是 否 能 被 公 
开 , 何 时 能 被 销毁 等 。 可 以 通过 建立 完善 的 数据 隐私 保护 机 制 ,来 使 用 户 可 以 决定 自己 的 
数据 是 否 要 隐私 保护 ,是 否 对 隐私 数据 进行 销毁 等 操作 ,如 建立 数据 采集 时 的 隐私 保护 、 
数据 共享 和 公开 时 的 隐私 保护 ` 数 据 分 析 时 的 隐私 保护 ` 数 据 生 命 周期 的 隐私 保护 、 隐 私 
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数据 可 信和 销毁 等 机 制 。 
2. 数据 加 密 技术 


数据 隐私 除 应 遵循 用 户 隐私 法 规 和 隐私 安全 机 制 外 ,还 应 该 结合 密码 学 技术 对 数据 
本 身 进行 加 密 来 实现 对 用 户 隐私 的 保护 ,如 对 数据 本 身 进行 加 密封 装 、 从 源头 去 限定 数据 
的 可 见 性 、 通 过 限制 访问 底层 系统 来 控制 数据 的 可 见 性 、 数 据 匿 名 保护 技术 、 保 护 隐私 的 
数据 挖掘 技术 等 。 


3. 访问 控制 


目前 的 访问 控制 是 以 角色 为 基础 采用 自 项 向 下 的 管理 模式 进行 访问 控制 ,这 种 访问 
控制 通过 为 用 户 指 派 角 色 , 将 角色 关联 至 权限 集合 , 当 其 应 用 于 大 数据 场景 时 ,面临 需 大 
量 人 工 参 与 角色 划分 、 授 权 的 问题 等 。 因 此 ,在 访问 控制 方面 ,可 以 考虑 使 用 自 底 向 上 的 
细 粒 度 访问 控制 方式 ,首先 跟踪 单个 数据 元 素 的 保密 要 求 , 当 有 多 个 不 同 的 应 用 共享 环境 
时 ,要 标注 该 数据 元 素 的 最 小 上 界 ;其 次 ,跟踪 用 户 角 色 和 权限 ,如 果 该 用 户 被 正确 验证 ， 
可 从 多 个 可 信 来 源 数据 中 提取 该 用 户 的 安全 属性 ,从 而 可 以 妥善 处 理 联合 授权 ;最 后 , 正 
确实 施 访问 控制 的 保密 要 求 , 它 包含 要 求 的 访问 数据 和 用 户 连接 属性 等 。 


153 数据 治理 


数据 治理 是 用 于 整个 数据 生态 系统 的 全 面 方法 ,是 大 数据 技术 的 重要 环节 。 大 数据 
的 数据 治理 比 传统 结构 化 数据 的 数据 治理 难度 更 大 , 既 有 基于 传统 的 编程 模式 ,又 有 大 数 
据 下 特有 的 方式 ,无 法 利用 传统 数据 治理 的 方式 来 操作 。 大 数据 的 数据 治理 不 是 用 于 大 
数据 的 局 部 解决 方案 ,而 是 贯穿 于 整个 大 数据 的 生命 周期 的 系统 全 面 的 方法 。 因 此 ,大 数 
据 的 数据 治理 不 能 在 拥有 大 量 数据 之 后 才 考 虑 数据 治理 ,而 是 在 数据 开始 生成 之 前 就 应 
该 考虑 用 大 数据 的 方式 来 进行 数据 治理 。 大 数据 的 数据 治理 包含 隐私 性 、 安 全 性 、 合 规 
性 、 数 据 质量 、 元 数据 管理 、 主 数据 管理 以 及 结合 业务 特点 的 延伸 等 。 企 业 在 进行 大 数据 
的 数据 治理 时 ,应 把 数据 作为 宝贵 的 企业 资产 来 进行 管理 。 此 外 ,还 应 注意 以 下 几 点 。 


1. 数据 维度 化 


在 大 数据 进行 数据 治理 前 ,应 先 考 虑 对 数据 进行 维度 化 , 即 要 加 强大 数据 应 用 的 安全 
起 源 , 明 确 数 据 认 责 , 如 数据 起 源 记录 可 靠 、 隐 私 保护 、 可 访问 控制 .数据 分 类 、 责 任 机 制 
等 。 其 中 ,明确 数据 的 责任 方 是 数据 治理 的 重要 方面 ,只 有 建立 健全 的 数据 认 责 机 制 , 才 
能 对 数据 安全 ,数据 质量 和 数据 效率 进行 持续 改进 。 


2. 数据 隐私 


大 数据 进行 分 析 的 数据 集 往往 包括 个 人 和 组 织 的 隐私 信息 ,而 数据 隐私 也 是 数据 治 
理 的 最 重要 的 一 方面 。 数 据 隐私 使 得 企业 承载 了 更 多 的 责任 和 最 大 的 业务 风险 ,侵犯 个 
人 或 组 织 隐私 不 仅 可 能 损害 企业 的 声誉 .削弱 市 场 信任 ,更 有 可 能 被 法 律 制裁 。 因 此 ,我 
们 要 强制 访问 控制 的 保密 要 求 ,适当 地 屏蔽 个 人 或 组 织 隐 私信 息 等 措施 。 
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3. 治理 目标 


大 数据 的 数据 治理 的 目的 不 是 为 了 大 数据 分 析 处 理 , 而 是 出 于 对 商业 决策 起 指导 作 
用 。 因 此 ,明确 企业 的 数据 治理 目标 也 同样 至 关 重 要 。 针 对 不 同 的 企业 ,治理 目标 不 同 ， 
如 可 以 对 数据 是 否 有 明确 定义 .明确 的 责任 方 、 数 据 内 容 是 否 符合 标准 要 求 .数据 的 存储 
与 管理 ,数据 分 析 、 数 据 访 问安 全 控制 等 方面 进行 制定 。 
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大 数据 安全 不 能 只 局 限于 大 数据 基础 设施 的 方案 ,还 要 考虑 到 数据 采集 、 大 数据 分 
析 、 大 数据 基础 架构 本 身 的 安全 。 因 为 大 数据 需要 从 各 种 来 源 进 行 数据 采集 ,而 哪些 数据 
是 我 们 能 信任 的 数据 ,哪些 数据 需要 验证 ,哪些 数据 是 恶意 攻击 数据 ,以 及 大 数据 基础 设 
施 的 节点 是 否 安全 等 , 面 对 这 些 影响 大 数据 安全 的 情况 ,可 以 采用 以 下 方式 。 


1. 采集 端 验证 /过 滤 


大 数据 的 数据 来 源 主要 是 从 采集 端 进行 数据 采集 ,而 数据 是 否 可 信 、 是 否 恶 意 攻击 等 
就 需要 在 数据 采集 端 对 数据 进行 输入 验证 和 过 滤 , 从 而 防止 人 侵 者 生成 并 发 送 恶 意 数 据 
或 对 数据 进行 自 改 的 恶意 行为 进行 有 效 的 检测 和 过 滤 。 由 于 现实 世界 的 数据 采集 系统 收 
集 的 数据 都 是 以 百 万 量 来 计算 的 ,单一 的 数据 输入 验证 和 过 滤 技 术 很 难 满足 实际 应 用 。 
因此 ,我 们 建议 在 实践 中 使 用 一 种 混合 的 方法 来 实现 数据 采集 。 


2. 实时 安全 监控 


大 数据 可 以 带 来 潜在 的 价值 有 用 的 辅助 决策 以 及 实时 的 数据 处 理 等 ,然而 这 一 切实 
现 的 前 提 条 件 是 要 保证 真实 的 数据 来 源 , 稳 定 的 大 数据 基础 架构 ,安全 的 大 数据 分 析 等 。 
因此 ,大 数据 最 具 挑战 的 问题 之 一 就 是 如 何 实现 实时 安全 监控 ,监控 大 数据 基础 架构 本 
身 , 监 控 大 数据 基础 设施 的 所 有 节点 的 性 能 和 健康 情况 ,监控 大 数据 平台 是 否 受 到 攻击 并 
实时 预警 等 。 目 前 主流 的 大 数据 Hadoop 平台 中 并 没有 内 置 安全 监控 和 分 析 工 具 , 这 就 
要 求 我 们 在 使 用 Hadoop 平台 时 在 注重 平台 稳定 性 的 基础 上 ,进行 实时 安全 监控 解决 方 
案 和 框架 的 开发 。 
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大 数据 技术 就 是 从 各 种 类 型 的 海量 数据 中 快速 获得 有 价值 信息 的 技术 。 根 据 大 数据 
处 理 的 生命 周期 ,大 数据 技术 通常 包括 大 数据 采集 与 预 处 理 ,大 数据 存储 与 管理 ,大 数据 
分 析 与 挖掘 ,大 数据 应 用 与 展现 。 要 真正 地 从 大 数据 中 获得 洞察 ,需要 在 大 数据 生命 周期 
的 各 个 阶段 中 全 面 集成 可 与 之 相互 配合 的 技术 。 本 章 内 容 虽 在 帮助 读者 更 好 地 认识 和 了 
解 大 数据 生命 周期 各 个 阶段 的 关键 技术 。 


2.1 大 数据 采集 与 预 处 理 技术 


在 大 数据 时 代 , 谁 掌握 了 数据 , 谁 就 有 可 能 掌握 未 来 ,而 其 中 数据 采集 和 预 处 理 是 大 
数据 价值 挖掘 最 重要 的 一 环 ,其 后 的 数据 分 析 与 挖掘 、 数 据 管 理 都 构建 于 采集 的 基础 上 。 
一 般 来 说 ,在 进行 数据 存储 和 处 理 之 前 ,需要 对 数据 进行 清洗 、 整 理 , 这 个 环节 在 传统 的 数 
据 处 理 过 程 中 其 实 就 是 对 数据 进行 采集 和 预 处 理 。 传 统 的 数据 分 析 可 以 先 通过 ETL T. 
具 (Extract-Transform-Load, 抽 取 - 转 换 -装载 ) 进 行 数据 采集 和 预 处 理 ,然后 再 进行 如 离 
线 统计 分 析 、 机 器 学 习 \ 搜 索引 擎 的 计算 等 。 但 面 对 大 数据 时 ,传统 的 ETL 工具 将 无 法 发 
挥 其 作用 ,因为 大 数据 的 数据 来 源 复杂 多 样 ,如 网 络 日 志 、 视 频 、 图 片 、 地 理 位 置 ,传感器 数 
据 、 物 联网 数据 等 ,而 且 这 些 数 据 格式 多 样 . 数 据 量 大 ,格式 的 转换 开销 过 大 ,以 及 在 性 能 
上 无 法 满足 海量 数据 的 采集 需求 。 因 此 ,大 数据 的 采集 与 预 处 理 技术 就 要 实现 利用 多 个 
数据 库 来 接收 来 自 客 户 端 (Web、App 或 者 传感器 形式 等 ) 的 数据 ,并 且 应 该 将 这 些 来 自 
前 端的 数据 导入 到 一 个 集中 的 大 型 分 布 式 数据 库 , 或 者 分 布 式 存储 集群 ,同时 可 以 在 导入 
基础 上 做 一 些 简单 的 清洗 和 预 处 理工 作 。 

在 大 数据 的 数据 采集 和 预 处 理 过 程 中 ,其 主要 特点 和 挑战 是 数据 量 .数据 质量 和 采集 
性 能 。 因 为 在 大 数据 环境 下 ,数据 来 源 多 ,而 且 类 型 也 多 种 多 样 ,采集 速度 又 快 ,如 果 不 能 
及 时 对 数据 质量 进行 处 理 , 就 会 导致 数据 质量 问题 的 堆积 ,从 而 使 得 质量 问题 越 来 越 严 
重 。 例 如 ,淘宝 自主 研发 的 Time Tunnel 数据 采集 工具 每 天 要 实时 采集 来 自 淘宝 主 站 的 
用 户 店铺、 商品 和 交易 等 数据 库 的 数据 ,还 有 用 户 的 浏览 .搜索 等 行为 日 志 等 上 百 万 的 数 
据 量 ,如 果 无 法 实现 对 数据 质量 的 实时 监控 和 数据 清洗 工作 ,以 及 在 采集 性 能 上 无 法 满足 
业务 需求 的 话 ,将 无 法 实现 实时 日 志 收 集 .数据 实时 监控 广告 效果 实时 反馈 数据 库 实 时 
同步 等 。 所 以 在 数据 采集 和 预 处 理 环节 ,如何 进行 实时 数据 质量 监控 和 清洗 ,如 何 通过 强 
大 的 集群 和 分 布 式 计算 能 力 提 高 数据 质量 监控 性 能 ,如 何 保证 负载 均衡 和 高 可 靠 性 等 方 
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面 都 是 需要 深入 思考 和 设计 的 。 

目前 ,大 数据 的 采集 工具 有 Cloudera 公司 的 Flume?? , Facebook 公司 的 Scribe?! 、 
LinkedIn 的 Kafka? .淘宝 的 Time Tunnel? 以 及 开源 社区 Hadoop 的 ChukwaU*1 4 , ix 
些 大 数据 采集 工具 均 可 以 满足 每 秒 数 百 MB 的 日 志 数 据 采集 和 传输 需 3 
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Flumet5 是 一 个 高 可 用 的 ,高 可 靠 的 ,分 布 式 的 海量 日 志 采 集聚 合 和 传输 的 系统 。 
Flume 支持 在 日 志 系统 中 定制 各 类 数据 发 送 方 ,用 于 收集 数据 ;同时 ,Flume 提供 对 数据 
进行 简单 处 理 , 并 写 到 各 种 数据 接受 方 (可 定制 ) 的 能 力 。 初 始 的 Flume 版 本 是 Flume 
OG(Flume Original Generation) 由 Cloudera 公司 开发 ,叫做 Cloudera Flume; 后 来 ， 
Cloudera 把 Flume 贡献 给 Apache, 版 本 改 为 Flume NG(Flume Next Generation) 现在 
称 为 Apache Flume。 

Flume 对 日 志 数 据 的 收集 通过 三 种 节点 : Master, Collector 和 Agent, Master 是 管 
理 节点 ,用 于 管理 协调 Agent 和 Collector 的 配置 等 信息 ;Agent Collector 都 属于 日 志 收 
集 节 点 ,Agent 用 于 采集 数据 ,是 Flume 中 产生 数据 流 的 地 方 , 同 时 ,Agent 会 将 产生 的 数 
据 流传 输 到 Collector 节点 ;Collector 用 于 将 多 个 Agent 的 数据 汇总 后 加 载 到 存储 系统 
中 (存储 系统 可 以 是 普通 的 文件 ,也 可 以 是 HDFS, HIVE, HBase 等 )。Flume 中 还 有 个 
重要 的 概念 叫 数据 流 (Data Flow) , 即 数据 传输 管道 ,描述 了 日 志 数据 从 产生 处 到 最 终 目 
的 地 的 数据 传送 过 程 。 同 时 ,数据 的 传输 需要 指定 数据 源 (Source) 和 数据 汇集 点 (Sink)， 
通过 对 日 志 收 集 节 点 的 Source. Sink 配置 ,实现 数据 流 的 建立 。Flume 的 逻辑 架构 如 
图 2.1 所 示 。 


Web 


Agent C > 


图 2.1 Flume 的 逻辑 架构 
(图 片 来 源 : http: //flume. apache. org/) 


Flume 提供 了 从 console( 控 制 台 )、RPC(CThrift-RPC) 、text( 文 件 ) tail (UNIX tail), 
syslog(syslog 日 志 系 统 , 支 持 TCP 和 UDP 等 两 种 模式 ) ,exec( 命 令 执 行 ) 等 数据 源 上 收 
集 数据 的 能 力 。 同 时 ,Flume 的 数据 接收 方 ,可 以 是 console( 控 制 台 )、text( 文 件 )、dfs 
(HDFS 文件 ).RPCCThriftrRPC) 和 syslog TCP(TCP syslog 日 志 系 统 ) 等 。 其 中 ,收集 
数据 有 如 下 两 种 主要 工作 模式 。 

(1) Push Sources: 外 部 系统 会 主动 地 将 数据 推送 到 Flume 中 ,如 RPC、syslog。 

(2) Polling Sources: Flume 到 外 部 系统 中 获取 数据 ,一般 使 用 轮 询 的 方式 ,如 text 
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和 exec, 
下 面 简要 分 析 一 下 Flume 在 可 靠 性 .可 扩展 性 .可 管理 性 及 功能 可 扩展 性 方面 的 
能 力 。 


1. 可 靠 性 


当 节 点 出 现 故障 时 ,日 志 能 够 被 传送 到 其 他 节点 上 而 不 会 丢失 。Flume 提供 了 三 种 
级 别 的 可 靠 性 保障 ,从 强 到 弱 依 次 分 别 为 : end-to-end( 收 到 数据 Agent 首先 将 event 写 
到 磁盘 上 , 当 数 据 传送 成 功 后 ,再 删除 ; 如果 数据 发 送 失 败 , 可 以 重新 发 送 );Store on 
failure( 这 也 是 scribe 采用 的 策略 , 当 数 据 接收 方 crash 时 ,将 数据 写 到 本 地 , 待 恢复 后 , 继 
续 发 送 ) i Best effort( 数 据 发 送 到 接收 方 后 ,不 会 进行 确认 ) 。 


2. 可 扩展 性 


Flume 采用 了 三 层 架 构 , 分 别 为 Agent,Collector 和 Storage, 每 一 层 均 可 以 水 平 扩 
展 。 其 中 ,所 有 Agent 和 Collector 由 Master 统一 管理 ,这 使 得 系统 容易 监控 和 维护 , 且 
Master 允许 有 多 个 (使 用 ZooKeeper 进行 管理 和 负载 均衡 ) ,这 就 避免 了 单 点 故障 问题 。 


3. 可 管理 性 


所 有 Agent 和 Collector 由 Master 统一 管理 ,这 使 得 系统 便于 维护 。 在 多 Master 情 
况 下 ,Flume 利用 ZooKeeper 和 Gossip 协议 ,保证 动态 配置 数据 的 一 致 性 。 用 户 可 以 在 
Master 上 查看 各 个 数据 源 或 者 数据 流 执行 情况 , 且 可 以 对 各 个 数据 源 配 置 和 动态 加 载 。 
其 中 ,Flume 提供 了 Web 和 Shell Script Command 两 种 形式 对 数据 流 进行 管理 。 


4. 功能 可 扩展 性 


用 户 可 以 根据 需要 添加 自己 的 Agent, Collector 或 者 Storage。 此 外 ,Flume 自 带 了 
很 多 组 件 , 包 括 各 种 Agent(file,syslog 等 ) ,Collector 和 Storage(file, HDFS 45) 。 

Flume 本 身 具 有 可 靠 性 \ 可 扩展 性 、 可 管理 性 、 功 能 可 扩展 性 ,适用 于 实时 的 日 志 收 
集 ,安装 简单 ,但 动态 配置 复杂 。 当 系统 集群 减少 时 ,可 通过 停止 Flume 日 志 收 集 节点 的 
方式 进行 调整 。 但 是 当 系 统 节点 增加 时 ,需要 用 户 手 动 配置 新 的 日 志 收 集 节 点 。 配 置 的 
过 程 需要 用 户 对 原 有 系统 、Flume 基本 概念 和 配置 过 程 以 及 ZooKeeper 有 一 定 程 度 的 了 
解 , 所 以 对 用 户 的 要 求 比较 高 。 

Æ. Flume 框架 对 Hadoop 和 ZooKeeper 的 依赖 只 是 在 jar 包 上 ,并 不 要 求 Flume È 
动 时 必须 将 Hadoop 和 ZooKeeper 服务 也 启动 。 
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Scribe"? f& Facebook 开源 的 日 志 收 集 系统 ,在 Facebook 内 部 大 量 使 用 。 它 能 从 各 
种 日 志 源 收集 日 志 ,存储 到 一 个 中 央 存 储 系统 上 ,便于 进行 集中 统计 分 析 处 理 。 它 为 日 志 
的 “分 布 式 收集 ,统一 处 理 ” 提 供 了 一 个 可 扩展 的 ,高 容错 的 方案 。 它 最 重要 的 特点 就 是 容 
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错 性 好 ,Scribe 从 各 种 数据 源 上 收集 数据 , 放 到 一 个 共享 队列 上 ,然后 Push 到 后 端的 中 央 
存储 系统 上 。 当 中 央 存 储 系 统 出 现 故障 时 ,Scribe 可 以 暂时 把 日 志 写 到 本 地 文件 中 , 待 中 
央 存 储 系统 恢复 性 能 后 ,Scribe 把 本 地 日 志 续 传 到 中 央 存 储 系 统 上 。Scribe 的 逻辑 架构 
如 图 2. 2 所 示 。 


一 一 HDFS is bad 
Application [一 一 一 一 一 一 一 一 -~ 
a 1 sl 
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图 2.2 Scribe 的 逻辑 架构 
(图 片 来 源 : http: //dongxicheng. org/search-engine/scribe-intro/) 


需要 注意 的 是 ,各 个 数据 源 须 通过 Thrift( 由 于 采用 了 Thrift ,客户 端 可 以 采用 各 种 
语言 编写 ) 向 Scribe 传输 数据 (每 条 数据 记录 包含 一 个 Category 和 一 个 Message) 。 可 以 
在 Scribe 配置 用 于 监听 端口 的 Thrift 线程 数 ( 默 认为 3)。 在 后 端 ,Scribe 可 以 将 不 同 
Category 的 数据 存放 到 不 同 目录 中 ,以 便于 进行 分 别处 理 。 后 端的 日 志 存 储 方式 可 以 是 
各 种 各 样 的 存储 ,包括 File、Buffer、Network( 另 一 个 Scribe 服务 器 ) ,Bucket( 包 含 多 个 存 
储 ,通过 Hash 将 数据 存 到 不 同 Store 中 )、Null、Thriftfile ( 写 到 一 个 Thrift 
TFileTransport 文件 中 ) 和 Multi( 把 数据 同时 存放 到 不 同 存储 中 ) 。 

Scribe 为 日 志 收 集 提供 了 一 种 容错 且 可 扩展 的 方案 。Scribe 可 以 从 不 同 数据 源 ,不 
同 机 器 上 收集 日 志 , 然 后 将 它们 存 人 一 个 中 央 存 储 系统 ,以 便于 进一步 处 理 。 当 采用 
HDFS 作为 中 央 系 统 时 ,可 以 进一步 利用 Hadoop 进行 处 理 数据 ,于 是 Scribe 十 HDFS 十 
MapReduce 方案 便 诞生 了 。 

注 : 

(1) File: 将 日 志 写 到 文件 或 者 NFS 中 ,目前 支持 两 种 文件 格式 , 即 STD 和 HDFS. 
分 别 表示 普通 文本 文件 和 HDFS。 

(2) Buffer; 这 是 最 常用 的 一 种 存储 ,该 存储 中 包含 两 个 子 存储 ,其 中 一 个 是 主 存储 ， 
另 一 个 是 辅 存储 。 日 志 会 优先 写 到 主 存储 中 ,如 果 主 存储 出 现 故障 , 则 Scribe 会 将 日 志 
暂 存 到 辅 存 储 中 , 待 主 存储 恢复 性 能 后 ,再 将 辅 存 储 中 的 数据 复制 到 主 存储 中 。 其 中 , 畏 
存储 仅 支持 两 种 存储 方式 ,一 个 是 File, 另 一 个 是 HDFS。 

(3) Null, 这 也 是 一 种 常用 的 存储 。 用 户 可 以 在 配置 文件 中 配置 一 种 叫 Default 的 
Category, 如 果 数 据 所 属 的 Category 没有 在 配置 文件 中 设置 相应 的 存储 方式 , 则 该 数据 
会 被 当 作 Default。 如 果 用 户 想 忽 略 这 样 的 数据 ,可 以 将 它 放 入 Null 存储 中 。 
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Kafka 是 LinkedIn 公司 在 2010 年 开发 的 分 布 式 消息 订阅 发 布 系统 ,用 Scala 开发 ， 
目前 已 经 开源 并 贡献 给 Apache, 并 成 为 Apache 的 顶级 项 目 。 它 原本 用 作 LinkedIn 的 活 
动 流 (Activity Stream) ? 和 运营 数据 处 理 管道 (Pipeline) 的 基础 ,以 实时 处 理 消 息 , 低 
1O 消耗 见长 ,因此 多 用 于 大 数据 实时 处 理 和 离线 消息 处 理 。 现 在 它 已 为 多 家 不 同类 型 
的 公司 作为 多 种 类 型 的 数据 管道 (Data Pipeline) 和 消息 系统 使 用 。Kafka 的 逻辑 架构 如 
图 2. 3 Br. 


(Producer) Front End Front End Front End 


(Push) (Push) 
Pi z 
2 
(Broker) Kafka Kafka Kafka 
Z (Pull (Pull) Nen 

Hadoop Real-time Other Data 
(Consumer) nii : 

Cluster monitoring service warehouse 


图 2.3 Kafka 的 逻辑 架构 


从 图 2. 3 可 以 看 出 ,Kafka 实际 上 是 一 个 分 布 式 的 消息 发 布 订阅 系统 , 它 主 要 有 三 种 
角色 ,分别 为 数据 生产 者 (Producer)2 ,代理 (Broker)2 和 数据 使 用 者 (Consumer)@ 。 
Producer 向 某 个 Topic 发 布 (Push) 消 息 ,而 Consumer 订阅 (Pull) 某 个 Topic 的 消息 , 进 
而 一 旦 有 新 的 关于 某 个 Topic 的 消息 , Broker 会 传递 给 订阅 它 的 所 有 Consumer。 在 
Kafka 中 ,消息 是 按 Topic 组 织 的 ,而 每 个 Topic 又 会 分 为 多 个 Partition ,这 样 便 于 管理 


(D 活动 流 是 所 有 站 点 在 对 其 网 站 使 用 情况 做 报表 时 要 用 到 的 数据 中 最 常规 的 部 分 。 活 动 流 数据 包括 页 面 访问 
Tt (Page View) .被 查看 内 容 方面 的 信息 以 及 搜索 情况 等 内 容 。 这 种 数据 通常 的 处 理 方式 是 先 把 各 种 活动 以 日 志 的 形 
式 写 人 某 种 文件 ,然后 周期 性 地 对 这 些 文件 进行 统计 分 析 。 运 营 数据 指 的 是 服务 器 的 性 能 数据 (CPU、1/O 使 用 率 、 请 
求 时 间 、 服 务 日 志 等 等 数据 )。 运 营 数 据 的 统计 方法 种 类 繁多 。 

© 数据 生产 者 Producer 的 任务 是 向 Broker 发 送 数 据 。Kafka 提供 了 两 种 Producer 接口 ,一 种 是 LowLevel 接 
口 ,使 用 该 接口 会 向 特定 的 Broker 的 某 个 Topic 下 的 某 个 Partition 发 送 数 据 ; 另 一 种 是 High Level 接口 ,该 接口 支持 
同步 /异步 发 送 数据 ,基于 ZooKeeper 的 Broker 自动 识别 和 负载 均衡 。 

© 代理 Broker 采 取 了 多 种 策略 提高 数据 处 理 效率 ,包括 Sendfile 和 Zero Copy FHR. 

© 数据 使 用 者 Consumer 的 作用 是 将 日 志 信息 加 载 到 中 央 存 储 系统 上 。Kafka 提供 了 两 种 Consumer 接口 ,一 种 
是 Low Level 的 , 它 维护 到 某 一 个 Broker 的 连接 ,并 且 这 个 连接 是 无 状态 的 , 即 每 次 从 Broker 上 Pull 数据 时 ,都 要 告 
Vf Broker 数据 的 偏 移 量 ; 另 一 种 是 High Level 接口 , 它 隐 藏 了 Broker 的 细节 ,允许 Consumer 从 Broker 上 Push 数据 
而 不 必 关 心 网 络 拓扑 结构 。 
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数据 和 进行 负载 均衡 。 同 时 ,Producer 和 Broker 之 间 利 用 ZooKeeper 进行 了 负载 均衡 ， 
所 有 Broker 和 Consumer 都 会 在 ZooKeeper 中 进行 注册 , 且 ZooKeeper 会 保存 一 些 元 数 
据 信息 ,如果 某 个 Broker 和 Consumer 发 生 了 变化 ,其 他 所 有 的 Broker 和 Consumer 都 
会 得 到 通知 。 


214 Time Tumd 


Time Tunnel[59 是 一 个 高 效 的 、 可 靠 的 .可 扩展 的 实时 数据 传输 平台 , 它 是 基于 发 布 \ 
订阅 的 消息 模型 开发 的 ,支持 消息 多 用 户 订阅 。 目 前 ,Time Tunnel 在 阿里 巴巴 广泛 地 应 
用 于 日 志 收 集 .数据 监控 .广告 反馈 、 量 子 统计 、 数 据 库 同步 等 领域 。Time Tunnel 的 主要 
功能 就 是 实时 完成 海量 数据 的 交换 ,因此 它 的 业务 逻辑 主要 也 就 有 两 个 : 一 个 是 发 布 数 
据 , 将 数据 发 送 到 Time Tunnel; 另 一 个 是 订阅 数据 ,从 Time Tunnel 读 取 自己 所 关心 的 
数据 。Time Tunnel 的 逻辑 架构 如 图 2. 4 所 示 。 


Cluster API 
Cluster Master 


Route Info Router Router Route Info 
i Broker Broker 
Client cC» cC» Client 
Push 
iss Broker Broke | Pull 


图 2.4 Time Tunnel 的 逻辑 架构 


TT Manager 


/ 


Time Tunnel 大 概 由 TT Manager, Client, Router, ZooKeeper 和 Broker 几 部 分 组 
成 。 其 中 ,TT Manager 负责 对 外 提供 队列 申请 、 删 除 ,查询 和 集群 的 管理 接口 ;对 内 故障 
发 现 ,发 起 队列 迁移 。Client 是 一 组 访问 Time Tunnel 的 API, 主要 由 三 部 分 组 成 : 安全 
认证 API, 发 布 API 和 订阅 API, 目前 Client 支持 Java, Python 和 PHP 三 种 语言 。 
Router 是 访问 Time Tunnel 的 门户 ,主要 负责 路 由 、 安 全 认证 和 负载 均衡 ,为 客户 端 提供 
路 由 信息 ,找到 为 消息 队列 提供 服务 的 Broker。ZooKeeper 是 Hadoop 的 开源 项 目 ,其 主 
要 功能 是 状态 同步 ,Broker 和 Client 的 状态 都 存储 在 这 里 。Broker 是 Time Tunnel 的 核 
心 , 负 责 消 息 的 存储 转发 ,承担 实际 的 流量 ,进行 消息 队列 的 读 写 操作 。 

Client 访问 Time Tunnel 的 第 一 步 是 向 Router 进行 安全 认证 ,如 果 认 证 通过 ， 
Router 根据 Client 要 发 布 或 者 订阅 的 Topic 对 Client 进行 路 由 ,使 Client 和 正确 的 
Broker 建立 连接 ,路 由 的 过 程 包含 负载 均衡 策略 ,Router 保证 让 所 有 的 Broker 平均 地 接 
收 Client 访问 。Time Tunnel 作为 一 个 实时 数据 传输 平台 具有 以 下 特点 。 


2KB 大 小 的 消息 ,峰值 每 秒 4WTPS( 每 秒 钟 系统 能 够 处 理 的 交易 或 事务 的 数量 ) 的 
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访问 。 淘 宝 三 台 服 务 器 ,每 天 处 理 2. 3TB( 压 缩 后 ) 数 据 ,峰值 每 秒 50MB 流入 流量 、 
130MB 流出 流量 。 


2. 实时 性 
90% 的 消息 5ms 以 内 送 达 。 
3. 顺序 性 


如 果 开 启 了 顺序 传输 功能 , 当 没 有 故障 发 生 时 ,Time Tunnel 保证 消息 的 发 布 顺序 和 
订阅 顺序 是 一 致 的 。 


4. 可 靠 性 


在 数据 存储 方面 ,设计 了 内 存 一 磁盘 Hadoop dfs 三 级 缓存 机 制 ,确保 数据 可 靠 ;在 
系统 方面 ,将 服务 器 节点 组 织 成 环 ,在 环 里 面 每 一 个 节点 的 后 续 节 点 是 当前 节点 的 备份 节 
点 , 当 某 节点 故障 时 ,后 续 节 点 自动 接管 故障 节点 数据 ,以 保证 数据 可 靠 性 。 


5. 可 用 性 
单个 节点 故障 ,不 影响 系统 正常 运行 。 
6. 可 扩展 性 


可 以 对 系统 进行 横向 和 纵向 扩展 ,横向 扩展 可 以 向 现 有 的 服务 环 里 面 增加 节点 ,纵向 
扩展 可 以 增加 服务 环 。 


215 Chuwa 


Chukwar 是 一 个 开源 的 用 于 监控 大 型 分 布 式 系统 的 数据 收集 系统 ,是 构建 在 
Hadoop 的 HDFS 和 Map/Reduce 框架 之 上 的 ,继承 了 Hadoop 的 可 伸缩 性 和 和 鲁 棒 性 。 
Chukwa 还 包含 一 个 强大 和 灵活 的 工具 集 ,可 用 于 展示 、 监 控 和 分 析 已 收集 的 数据 。 
Chukwa 的 逻辑 架构 如 图 2.5 所 示 。 


Agent Collector 
(seconds) (seconds) 


一 -一 一 一 one per host one per 
100 agents 


2.5 Chukwa 的 逻辑 架构 
(图 片 来 源 : http://chukwa. apache. org/docs/r0. 5. 0/design. html) 
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从 图 2. 5 中 可 以 看 出 ,Chukwa 采用 了 HDFS 作为 存储 系统 ,主要 有 三 种 角色 ,分 别 
为 : Adaptor,Agent,Collector。 其 中 ,Agent 主要 负责 给 Adaptor 提供 各 种 服务 ,如 启动 
和 关闭 Adaptor, 将 数据 通过 HTTP 传递 给 Collector, 定 期 记录 Adaptor 状态 ,以 便 
Crash 后 恢复 ; Adaptor 是 直接 采集 数据 的 接口 和 工具 ,一 个 Agent 可 以 管理 多 个 
Adaptor 的 数据 采集 ;Collector 主要 负责 收集 Agent 发 送 来 的 数据 ,并 定时 写 人 集群 中 ; 
Map/Reduce Jobs 定时 启动 ,负责 把 集群 中 的 数据 分 类 、 排 序 、 去 重 和 合并 。 

Chukwa 可 以 用 于 监控 大 规模 (2000 十 以 上 的 节点 ,每 天 产生 数据 量 在 TB 级 别 ) 
Hadoop 集群 的 整体 运行 情况 并 对 它们 的 日 志 进 行 分 析 。 对 于 集群 的 用 户 而 言 : Chukwa 
展示 他 们 的 作业 已 经 运行 了 多 久 , 占 用 了 多 少 资源 ,还 有 多 少 资源 可 用 ,一 个 作业 为 什么 
失败 了 ,一 个 读 写 操作 在 哪个 节点 出 了 问题 ;对 于 集群 的 运 维 而 言 : Chukwa 展示 了 集群 
中 的 硬件 错误 ,集群 的 性 能 变化 ,集群 的 资源 瓶颈 在 哪里 ;对 于 集群 的 管理 者 而 言 : 
Chukwa 展示 了 集群 的 资源 消耗 情况 ,集群 的 整体 作业 执行 情况 ,可 以 用 以 辅助 预算 和 集 
群 资源 协调 ;对 于 集群 的 开发 者 而 言 Chukwa 展示 了 集群 中 主要 的 性 能 瓶颈 ,经 常 出 现 
的 错误 ,从 而 可 以 着 力 重 点 解决 重要 问题 。 可 以 看 出 ,Chukwa 从 数据 的 产生 ,收集 、 存 
储 、 分 析 到 展示 的 整个 生命 周期 都 提供 了 全 面 的 支持 。 


2.2 大 数据 存储 与 管理 技术 


在 大 数据 时 代 , 随 着 数据 规模 的 急速 增长 ,数据 类 型 复杂 多 样 , 其 中 主要 以 半 结 构 化 
和 非 结 构 化 为 主 , 而 传统 的 关系 型 数据 库 系统 (如 Oracle、SQL Server 等 ) 只 能 满足 关系 
型 数据 的 存储 需求 ,无 法 满足 半 结 构 化 和 非 结构 化 数据 的 存储 需求 ,因此 传统 的 数据 存储 
和 管理 带 来 了 一 系列 的 挑战 。 例 如 , 面 对 海 量 数据 源源 不 断 地 产生 , 现 有 的 单 节点 或 共享 
磁盘 架构 面 对 海 量 数据 存储 的 挑战 : 现 有 的 基于 结构 化 数据 为 主体 的 存储 方案 面 对 兼容 
无 模式 的 非 结 构 化 数据 的 挑战 ;对 采集 到 的 海量 . 异 构 和 混杂 的 大 数据 面 对 高 效 准 确 地 传 
输 、 存 储 的 挑战 等 。 因 此 ,大 数据 的 存储 与 管理 技术 主要 是 解决 复杂 结构 化 、 半 结构 化 和 
非 结构 化 大 数据 的 存储 与 管理 技术 ,并 为 其 提供 可 扩展 性 强 、 可 靠 性 高 .性 能 卓越 的 数据 
存储 ,访问 及 管理 解决 方案 ,如 开发 可 靠 的 分 布 式 文件 系统 .分布 式 关系 型 数据 库 以 及 分 
布 式 非 关系 型 数据 库 等 解决 方案 。 

针对 大 数据 的 数据 量 大 的 特点 ,可 以 采用 分 而 治之 的 思想 , 即 构建 分 布 式 存储 系统 。 
随 着 数据 量 的 快速 增加 ,分布 式 存储 可 以 方便 地 增加 存储 节点 ,从 而 保证 有 足够 的 容量 来 
存储 数据 ,并 使 数据 分 布 保持 平衡 状态 。 针 对 大 数据 的 结构 复杂 多 样 的 特点 ,可 以 根据 每 
种 数据 的 存储 特点 选择 最 合适 的 解决 方案 ,如 对 非 结 构 化 数据 采用 分 布 式 文件 系统 进行 
存储 ,对 结构 松散 无 模式 的 半 结 构 化 数据 采用 表 存 储 、 键 值 存储 或 面向 文档 的 存储 ,对 海 
量 的 结构 化 数据 采用 无 共享 的 分 布 式 并 行 数据 库存 储 。 依 据 数据 结构 特点 所 建议 的 存储 
方案 见 表 2. 1 。 
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表 2.1 依据 数据 结构 特点 所 建议 的 存储 方案 


结构 化 数据 非 结构 化 数据 半 结 构 化 数据 
Š " 不 方便 用 固定 结构 来 表现 | 介 于 完全 结构 化 数据 和 完全 非 结构 
定义 | 有 数据 结构 描述 信息 的 数据 的 数据 化 数据 之 间 的 数据 
特点 | 先 有 结构 ,再 有 数据 只 有 数据 ,没有 结构 先 有 数据 ,再 有 结构 
存储 | 分 布 式 关系 型 数据 库 分 布 式 文件 系统 分 布 式 非 关 系 型 数据 库 


221 分 布 式 文件 系统 


大 数据 存储 与 管理 面临 的 首要 问题 就 是 如 何 构建 一 个 大 型 的 分 布 式 文件 系统 ,从 
而 为 海量 数据 进行 有 效 处 理 和 分 析 提 供 底 层 存 储 支撑 。 采 用 分 布 式 系统 来 存储 海量 数据 
时 ,应 该 考虑 以 下 三 个 核心 的 需求 3" 和 9 。 

(1) Consistency( 一 致 性 ): 在 分 布 式 系 统 中 的 所 有 数据 备份 ,在 同一 时 刻 是 否 是 同 
样 的 值 ,等 同 于 所 有 节点 访问 同一 份 最 新 的 数据 副本 。 

(2) Availability( 可 用 性 ) : 在 集群 中 一 部 分 节点 故障 后 ,集群 整体 是 否 还 能 响应 客 
户 端的 读 写 请 求 , 即 对 数据 更 新 要 具备 高 可 用 性。 

(3) Partition Tolerance( 分 区 容错 性 ): 以 实际 效果 而 言 ,分 区 相当 于 对 通信 的 时 限 
要 求 , 系 统 如 果 不 能 在 时 限 内 达成 数据 一 致 性 ,就 意味 着 发 生 了 分 区 的 情况 ,必须 就 当前 
操作 在 Consistency( 一 致 性 ) 和 Availability( 可 用 性 ) 之 间 做 出 选择 。 

针对 分 布 式 系统 设计 和 部 署 的 三 个 核心 需求 ,最 初 是 由 Brewer 在 2000 年 的 PODC 
(Principles Of Distributed Computing) 会 议 上 提出 的 著名 的 CAP HW, 2002 年 ， 
Seth Gilbert 和 Nancy Lynch 证 明了 这 一 理论 59 ,使 之 成 为 一 个 定理 。 根 据 定 理 ,分 布 式 
系统 只 能 满足 三 项 中 的 两 项 而 不 可 能 满足 全 部 三 项 。 而 对 于 分 布 式 数据 系统 而 言 , 分 区 
容错 性 是 基本 要 求 ,否则 就 不 称 其 为 分 布 式 系统 了 。 因 此 ,架构 设计 师 不 要 把 精力 浪费 在 
设计 如 何 能 同时 满足 三 者 的 完美 分 布 式 系 统 上 ,而 是 应 该 进行 权衡 取舍 。 这 也 意味 着 分 
布 式 系统 的 设计 过 程 ,也 就 是 根据 业务 特点 在 Consistency (一致 性 ) 和 Availability( 可 用 
性 ) 之 间 寻 求 平衡 的 过 程 ,要 求 架构 师 真 正 理解 系统 需求 ,把 握 业 务 特点 。 

目前 典型 的 分 布 式 文件 系统 有 Lustre?*?? 、GFSED (Google File System), 
GlusterFS, PVFS ( Parallel Virtual File System). FastDFS, NFS, MogileFS, FreeNAS, 
OpenAFS, MooseFS, QFS ( Quantcast File System). Ceph, HDFS ( Hadoop Distributed 
File System) 等 。 它 们 的 许多 设计 理念 类 似 , 同 时 也 各 有 自己 的 特色 。 下 面 对 其 中 的 几 款 
分 布 式 文件 系统 进行 简单 介绍 。 


l. Lustre 


Lustre 3c fp 8 £g d — 4 JF UR BU , 3E TOSS Fe EORR BUE REJE GT X E AR B 6M 


© 分 布 式 文件 系统 (Distributed File System,DFS) 是 指 网 络 中 的 多 个 存储 节点 通过 网 络 组 织 起 来 ,文件 系统 管 
理 的 物理 存储 资源 不 一 定 直接 连接 在 本 地 节点 上 ,而 是 通过 计算 机 网 络 与 节点 相连 。 
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大 规模 的 、 安 全 可 靠 的 ,具备 高 可 用 性 的 集群 文件 系统 , 它 是 由 Sun 公司 开发 和 维护 的 。 
该 项 目 主 要 的 目的 就 是 开发 下 一 代 的 集群 文件 系统 ,能 够 支持 数 万 客户 端 系统 、PB 级 存 
储 容量 CH. GB 的 聚合 1/O 吞吐 量 , 使 其 具有 完美 的 可 伸缩 性 、 安 全 性 和 可 管理 性 等 。 
Lustre 是 Scale-Out 存储 架构 ,借助 强大 的 横向 扩展 能 力 , 通 过 增加 服务 器 即 可 方便 扩展 
系统 总 存储 容量 和 性 能 ,非常 适合 众多 客户 端 并 发 进行 大 文件 读 写 的 场合 ,但 目前 对 于 小 
文件 应 用 非常 不 适用 ,尤其 是 海量 小 文件 应 用 (Lots Of Small Files, LOSF) 。 

Lustre 集群 组 件 包含 MDS(The Metadata Server. Jú Xt fii JR 88) , MDT (Metadata 
Target, 元 数据 存储 节点 )、OSS(An Object Storage Server. X} & f£ fik llt 4 38) , OST CAn 
Object Storage Target. X} 22 ff fi 15 5) ,Client( Lustre Clients, 客 户 端 ) ,以 及 连接 这 些 组 
件 的 高 速 网 络 (High Speed Interconnect)。 比 较 合理 的 Lustre 文件 系统 集群 结构 如 


图 2.6 所 示 。 
对 象 存储 服务 器 — 对 象 存储 目的 地 (OST) 存 储 
元 数据 服务 器 连接 磁盘 存储 元 数 (OSS) 数据 对 象 
据 信息 (MDT) Gy 1-1000s 
元 数据 服务 器 集群 (MDS) 
1~100 OSS1 
Commodity Storage 
e Elan 
Myrinet 
e InfiniBand 
Lustre 客 户 端 Shared storage enables 
1-100 000 failover OSS 


GigE 


支持 多 种 网 络 基础 设施 
支持 多 厂商 的 存储 设备 


Enterprise-Class Storage 
Arrays and SAN Fabric 


[De | 
图 2.6 Lustre 文 件 系统 集群 结构 


MDS 负责 管理 元 数据 ,提供 一 个 全 局 的 命名 空间 ,Client 可 以 通过 MDS 读 取 到 保存 
F MDT 之 上 的 元 数据 。 在 Lustre 中 MDS 可 以 有 两 个 ,采用 了 Active-Standby 的 容错 
机 制 , 当 其 中 一 个 MDS 不 能 正常 工作 时 ,另外 一 个 后 备 MDS 可 以 启动 服务 。MDT 只 能 
有 一 个 ,不 同 MDS 之 间 共 享 访问 同一 个 MDT。 

MDT 为 单独 的 文件 系统 的 元 数据 信息 提供 了 后 端 存储 区 。MDT 存储 了 MDS 上 元 
数据 的 文件 名 、 目 录 、 权 限 和 文件 布局 。 一 个 文件 系统 只 能 有 一 个 MDT, 不 同 的 MDS 之 
间 共 享 同一 个 MDT。 
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OSS 负载 提供 L/O 服务 ,接受 并 服务 来 自 网 络 的 请 求 。 通 过 OSS ,可 以 访问 到 保存 
在 OST 上 的 文件 数据 。 一 个 OSS 对 应 2 一 8 个 OST ,其 存储 空间 可 以 高 达 8TB. OST 
上 的 文件 数据 是 以 分 条 的 形式 保存 的 ,文件 的 分 条 可 以 在 一 个 OSS 之 中 ,也 可 以 保存 在 
多 个 OSS 中 。 

OST 负责 实际 数据 的 存储 ,处 理 所 有 客户 端 和 物理 存储 之 间 的 交互 。 这 种 存储 是 基 
于 对 象 (Object-based) 的 ,OST 将 所 有 的 对 象 数据 放 到 物理 存储 设备 上 ,并 完成 对 每 个 对 
象 的 管理 。OST 和 实际 的 物理 存储 设备 之 间 通 过 设备 驱动 程序 来 实现 交互 。 通 过 驱动 
程序 的 作用 ,Lustre 可 以 继承 新 的 物理 存储 技术 以 及 文件 系统 ,实现 对 物理 存储 设备 的 
扩展 。 存 储 在 OST 上 的 文件 可 以 是 普通 文件 ,也 可 以 是 复制 文件 。 

Client 是 通过 标准 的 POSIX 接口 向 用 户 提 供 对 文件 系统 的 访问 ,主要 负责 同 OST 
进行 文件 数据 的 交互 ,包括 文件 数据 的 读 写 、 对 象 属性 的 改变 等 ; 同 MDS 进行 元 数据 的 
交互 ,包括 目录 管理 .命名 空间 管理 等 。 

目前 Lustre 文件 系统 最 多 可 以 支持 100 000 个 Client,1000 个 OSS 和 两 个 MDS 节 
点 。Lustre 系统 中 可 以 同时 运行 1 一 3 个 功能 模块 。 不 过 Lustre 一 般 运 行 于 高 性 能 计算 
机 系统 之 上 ,为 了 提高 Lustre 文件 系统 的 性 能 ,通常 MDS、OSS 和 Client 是 分 开 运 行 在 
Lustre 不 同 的 节点 之 上 的 。 实 验 与 应 用 已 经 证 明 ,Lustre 文件 系统 的 性 能 和 可 扩展 性 都 
不 错 ;还 拥有 基于 对 象 的 智能 化 存储 ,安全 的 认证 机 制 、 比 较 完善 的 容错 机 制 等 优点 。 值 
得 注意 的 是 ,Lustre 还 实现 了 部 分 文件 锁 ; 为 了 满足 高 性 能 计算 系统 的 需要 ,Lustre 针对 
大 文件 的 读 写 进行 了 优化 ,为 集群 系统 提供 较 高 的 1/O 吞吐 率 ,是 解决 目前 存储 L/O JR 
颈 较 好 的 方式 ;而 且 Lustre 在 可 用 性 和 扩展 性 方面 的 性 能 优越 。 然 而 ,Lustre 需要 特殊 
设备 的 支持 ,并 且 Lustre 目前 还 没 实现 MDS 的 集群 管理 ,今后 很 有 可 能 成 为 Lustre £ 
统 中 的 瓶颈 。 


2. GFS 


Google 文件 系统 (Google File System. GFS) 是 Google 自己 研发 的 一 个 适用 于 大 
规模 分 布 式 数据 处 理 相关 应 用 的 、 可 扩展 的 分 布 式 文件 系统 , 它 运行 于 廉价 的 普通 硬件 
上 ,提供 容错 功能 ,在 保证 系统 可 靠 性 和 可 用 性 的 同时 ,减少 了 系统 的 成 本 。GFS 的 系统 
架构 如 图 2.7 所 示 。 

GFS 将 整个 系统 的 节点 分 为 三 类 角色 : Client( 客 户 端 )、Master( 主 服务 器 ) 和 Chunk 
Server( 数 据 块 服务 器 )。Client 是 GFS 提供 给 应 用 程序 的 访问 接口 , 它 是 一 组 专用 接口 ， 
不 遵守 POSIX 规范 ,以 库 文件 的 形式 提供 。 应 用 程序 直接 调用 这 些 库 函数 ,并 与 该 库 链 
接 在 一 起 。Master 是 GFS 的 管理 节点 ,主要 维护 系统 的 元 数据 ,包括 文件 及 Chunk 名 字 
空间 ,GFS 文件 到 Chunk 之 间 的 映射 ,Chunk 位 置信 息 。 它 也 负责 整个 系统 的 全 局 控制 ， 
如 Chunk 租约 管理 ,垃圾 回收 无 用 Chunk, Chunk 复制 等 。Chunk Server 负责 具体 的 存 
储 工作 。 数 据 以 文件 的 形式 存储 在 Chunk Server 上 ,Chunk Server 的 个 数 可 以 有 多 个 ， 
它 的 数目 直接 决定 了 GFS 的 规模 。GFS 将 文件 按照 固定 大 小 进行 分 块 ,默认 是 64MB, 
每 一 块 称 为 一 个 Chunk( 数 据 块 ) ,每 个 Chunk 都 有 一 个 对 应 的 索引 号 (Index) 。 

客户 端 在 访问 GFS 时 ,首先 访问 Master 节点 ,获取 将 要 与 之 进行 交互 的 Chunk 
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Server 信息 ,然后 直接 访问 这 些 Chunk Server 完成 数据 存 取 。GFS 的 这 种 设计 方法 实现 
了 控制 流 和 数据 流 的 分 离 。Client 与 Master 之 间 只 有 控制 流 , 而 无 数据 流 ,这 样 就 极 大 
地 降低 了 Master 的 负载 ,使 之 不 成 为 系统 性 能 的 一 个 瓶颈 。Client 与 Chunk Server 之 
间 直 接 传 输 数 据 流 , 同 时 由 于 文件 被 分 成 多 个 Chunk 进行 分 布 式 存储 ,Client 可 以 同时 
访问 多 个 Chunk Server, 从 而 使 得 整个 系统 的 1/O 高 度 并 行 ,系统 整体 性 能 得 到 提高 。 


>= /foo/bar 


应 用 程序 | (文件 名 ，Chunk 索 引 ) GFS 主 服务 器 


Saa f chunk 2efü 
(Chunk fi / 
Chunk 位 置 ) < j 
Z 标注 : 
一 一 一 数据 信息 
向 数据 块 服务 器 发 出 指令 — —e 控制 信息 
(Chunk 句 柄 ， 字 节 范围 ) 数据 块 服务 器 状态 
GFS 数 据 块 服务 器 GFS 数 据 块 服务 器 
Chunk 数 据 Linux 文 件 系统 Linux 文 件 系统 


la. Tole. 


图 2.7 GFS 的 系统 架构 
(图 片 来 源 : 来 自 论文 The Google File System) 


3. PVFS 


PVFS U? (Parallel Virtual File System) 项 目 是 Clemson 大 学 为 了 运行 Linux 集群 
而 创建 的 一 个 并 行 虚拟 文件 系统 。PVFS 是 基于 传统 的 C/S 架构 进行 设计 ,整个 文件 系 
统 由 管理 节点 .计算 节点 和 1/O 节点 三 大 部 分 组 成 。 管 理 节点 负责 处 理 文件 的 元 数据 ， 
计算 节点 用 来 执行 各 种 计算 任务 ,1/O 节点 则 主要 负责 数据 文件 的 存储 和 读 写 ,并 负责 给 
计算 节点 提供 所 需 的 数据 。PVFS 系统 架构 如 图 2. 8 所 示 。 


[7—-| MGR 管理 节点 


CN L—- 
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计算 : zl-—-| oN, 
节点 & 
cN L—4£ 
> fpa ION, 
1/0 
节点 
cN, H 


2.8 PVFS 的 系统 架构 
(图 片 来 源 : http://www. pvfs. org/documentation/) 
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PVFS 系统 中 有 且 只 有 一 个 管理 节点 ,一 个 或 者 多 个 计算 节点 和 1/O 节点 。 在 整个 
集群 系统 范围 内 ,PVFS 使 用 一 致 的 全 局 命名 空间 。 另 外 ,PVFS 应 用 对 象 存储 的 概念 ， 
将 数据 文件 条 块 化 为 多 个 对 象 并 分 别 存储 到 多 个 存储 节点 上 。 由 于 在 网 络 通信 方面 ， 
PVFS 只 支持 TCP 网 络 通信 协议 ,这 使 得 其 灵活 性 不 足 。 此 外 ,由 于 PVFS 应 用 对 象 存 
储 的 概念 进行 数据 文件 的 存储 ,其 在 处 理 小 文件 时 性 能 也 不 太 理想 。PVFS 集中 的 元 数 
据 管理 成 为 整个 系统 的 瓶颈 ,可 扩展 性 受到 一 定 限 制 ,而 且 数据 没有 采取 相应 的 容错 机 
制 ,不 具备 动态 扩展 功能 ,系统 的 可 用 性 有 待 提高 。 


4. HDFS 


HDFS 是 Hadoop Distributed File System 的 缩写 , 意 为 Hadoop 分 布 式 文件 系统 。 
它 被 设计 成 运行 在 普通 商用 硬件 上 并 具有 高 容错 率 的 文件 系统 ,为 应 用 程序 数据 提供 了 
很 高 的 吞吐 量 , 适 合 处 理 大 量 数据 的 应 用 程序 。HDFS 最 初 是 作为 Apache 的 Nutch 网 
站 搜索 引擎 项 目的 基础 设施 而 建立 的 ,现在 演变 为 Apache 的 HDFS 项 目 , 有 关 HDFS 的 
相关 内 容 请 查看 第 4 SEP" Hadoop 分 布 式 文件 系统 ”相关 内 容 。 


222 分 布 式 数据 库 


分 布 式 数 据 库 是 一 个 数据 集合 ,这 些 数据 在 逻辑 上 属于 同一 个 系统 ,但 物理 上 却 分 散 
在 计算 机 网 络 的 若干 站 点 上 ,并 且 要 求 网 络 的 每 个 站 点 具有 自治 的 处 理 能 力 ,能 执行 本 地 
的 应 用 。 因 此 ,分布 式 数据 库 的 两 个 重要 特点 : 分 布 性 和 逻辑 相关 性 。 依 据 存储 的 数据 
结构 不 同 , 分 布 式 数据 库 可 分 为 分 布 式 关 系 型 数据 库 和 分 布 式 非 关系 型 数据 库 。 


1. 关系 型 数据 库 


分 布 式 关系 型 数据 库 是 一 种 强调 遵循 ACID 原则 (9 的 数据 存储 系统 , 即 数 据 库 事务 
正确 执行 应 用 遵循 以 下 4 个 基本 要 素 。 

1) Atomicity( 原 子 性 ) 

事务 的 操作 要 么 全 部 执行 ,要 么 全 部 不 执行 ,不 会 结束 在 中 间 某 个 环节 ,从 而 保证 数 
据 库 一 致 性 状态 。 

2) Consistency( 一 致 性 ) 

事务 的 正确 性 , 串 行 性 ,并 发 执行 的 多 个 事务 ,其 操作 的 结果 应 与 以 某 种 顺序 串 行 执 
行 这 几 个 事务 所 得 的 结果 相同 。 

3) Isolation( 隔 离 性 ) 

虽然 可 以 有 多 个 事务 同时 执行 ,但 是 单个 事务 的 执行 不 应 该 感知 其 他 事务 的 存在 , 因 
此 事务 执行 的 中 间 结 果 应 该 对 其 他 并 发 事务 隐藏 。 

4) Durability GFA HE) 

当 事 务 提交 后 ,其 操作 的 结果 将 永久 化 ,而 与 提交 后 发 生 的 故障 无 关 。 

为 了 保证 数据 库 的 ACID 特性 ,必须 尽量 按照 其 要 求 的 范式 进行 设计 ,关系 型 数据 库 
中 的 表 都 是 存储 一 个 格式 化 的 数据 结构 。 每 个 元 组 字段 的 组 成 都 是 一 样 的 ,即使 不 是 每 
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个 元 组 都 需要 所 有 的 字段 ,但 数据 库 会 为 每 个 元 组 分 配 所 有 的 字段 ,这样 的 结构 可 以 便于 
表 之 间 进 行 链 接 等 操作 ,但 从 另 一 个 角度 来 说 它 也 是 关系 型 数据 库 性 能 瓶颈 的 一 个 因素 。 
一 些 常见 的 关系 型 数据 库 系统 产品 , 比如 Federated PostgreSQL, Oracle, Federated 
MySQL .Oracle Exadata,Ingres,Sybase,Informix,Greenplum 和 IBM DB2 等 ,大 都 提供 
了 对 分 布 式 数据 库 的 不 同 程度 的 支持 。 下 面 对 其 中 的 几 款 分 布 式 关系 型 数据 库 进 行 简单 
介绍 。 

(1) Greenplum'? J£3£ T. Hadoop 的 一 款 分 布 式 关系 型 数据 库 产品 ,可 以 通过 标准 
的 SQL 对 Greenplum 中 的 数据 进行 访问 存 取 等 操作 ,在 处 理 海量 数据 方面 相 比 传统 数 
据 库 有 着 较 大 的 优势 。 该 数据 库 实际 上 是 由 数 个 独立 的 数据 库 服 务 组 合成 的 逻辑 数据 
库 , 即 关系 型 数据 库 集群 。 这 种 数据 库 集群 采用 的 是 MPP (Massively Parallel 
Processing) 架 构 , 如 图 2. 9 所 示 。 
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节点 
生成 查询 计划 并 派发 
汇总 执行 结果 


外 部 数据 源 
并 行 装载 或 导出 


图 2.9 Greenplum 体系 架构 
(图 片 来 源 : http://www. greenplum. com/) 


Greenplum 数据 库 由 Master 节点 和 Segment 节点 通过 Interconnect 互 连 组 成 ,其 中 
各 节点 的 功能 如 下 。 

Master 节点 主要 负责 : 建立 与 客户 端的 连接 和 管理 ;SQL 的 解析 并 形成 执行 计划 ; 
执行 计划 向 Segment 的 分 发 ;收集 Segment 的 执行 结果 ;Master 不 存储 业务 数据 ,只 存储 
数据 字典 。 

Segment 节点 主要 负责 : 业务 数据 的 存储 和 存 取 ;用 户 查 询 SQL 的 执行 。 

Network Interconnect 主要 负责 : 基于 超级 计算 的 软件 Switch 内 部 连接 层 ;基于 通 
用 的 网 卡 和 交换 机 。 
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从 各 节点 的 功能 可 以 看 出 ,Master 节点 只 负责 应 用 的 连接 ,生成 并 拆 分 执行 计划 ,把 
执行 计划 分 配给 Segment 节点 ,以 及 返回 最 终结 果 给 应 用 , 它 只 存储 一 些 数据 库 的 元 数 
据 , 不 负责 运算 ,因此 不 会 成 为 系统 性 能 的 瓶颈 。Segment 节点 存储 用 户 的 业务 数据 ,并 
根据 得 到 的 执行 计划 ,负责 处 理 业 务 数据 ,将 业务 数据 平均 分 布 到 每 个 Segment 节点 。 
当 进 行 数据 访问 时 ,首先 所 有 Segment 节点 并 行 处 理 与 自己 有 关 的 数据 ,Segment 节点 
之 间 通 过 Network Interconnect 进行 数据 交互 。Segment 节点 越 多 ,数据 处 理 速度 就 
越 快 。 

(2) Oracle Exadata 是 Oracle 公司 研发 的 一 款 Oracle 数据 库 一 体 机 , 专 为 运行 
Oracle 数据 库 而 构建 。Oracle Exadata 在 设计 时 ,借鉴 了 Hadoop HDFS 等 分 布 式 计算 
集群 的 设计 理念 ,使 Oracle 数据 库 的 运行 环境 突破 了 传统 的 基于 共享 存储 的 Scale-up 架 
T9? ,而 使 用 了 基于 Scale-out? 的 智能 存储 节点 的 架构 ,从 而 极 大 地 提高 了 Oracle 数据 库 
在 处 理 海量 数据 方面 的 性 能 ,该 系统 的 简化 体系 架构 如 图 2. 10 所 示 。 
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图 2.10 Oracle Exadata 体系 架构 
(图 片 来 源 : http://www. oracle. com/) 


如 图 2. 10 所 示 ,Oracle Exadata 是 由 数据 库 处 理 层 、 超 高 速 并 发 网 络 层 和 智能 存储 
层 构成 。 图 中 数据 库 处 理 层 中 的 数据 库 一 个 是 数据 库 服务 器 部 署 的 Real Application 
Clusters(RAC) 数 据 库 (可 以 用 于 生产 数据 库 ) , 另 一 个 是 单 实例 数据 库 ( 可 以 用 于 测试 和 
开发 ) ; 超 高 速 并 发 网 络 层 是 采用 InfiniBand( 高 带宽 , 低 延 迟 ) 交 换 网 络 ,主要 功能 是 实现 
数据 库 处 理 层 和 智能 存储 层 之 间 的 互 连 , 同 时 还 为 Oracle 数据 库 RAC 节点 提供 高 性 能 
集群 互 连 ; 智 能 存储 层 可 采用 创新 的 基于 Scale-out? 的 智能 存储 节点 ,不 仅 提供 了 高 性 能 
和 高 可 扩展 性 ,同时 还 采用 了 智能 闪存 缓存 等 技术 提高 了 海量 数据 的 存储 和 处 理性 能 。 


(D Scale-up 架构 , 即 纵向 扩展 架构 ,是 利用 现 有 的 存储 系统 ,通过 不 断 增加 存储 容量 来 满足 数据 增长 的 需求 。 
该 架构 的 优点 在 于 不 必 增 加 基础 设施 设备 (如 : 扩展 网 络 连接 能 力 ) 就 可 完成 容量 的 升级 , 即 只 有 容量 升级 的 成 本 ,不 
会 增加 控制 器 或 基础 设施 的 开销 ;缺点 在 于 在 容量 增长 的 同时 ,需要 增加 物理 空间 .电力 消耗 和 散热 能 力 等 。 
@ Scale-out 架构 , 即 横向 扩展 架构 ,是 以 节点 为 单位 ,通过 增加 具有 完整 功能 的 节点 进行 扩展 。 该 架构 的 优点 在 
于 一 个 Scale-out 系统 可 以 有 很 多 节点 ,而 且 节 点 之 间 的 内 部 物理 互 连 距离 可 以 很 远 ,并 且 容 量 和 性 能 会 同步 增长 ; 缺 
点 在 于 系统 横向 扩展 时 不 仅 需 要 电力 .散热 和 机 房 空间 ,而 且 还 需要 增加 容量 、 控 制 部 件 和 基础 设施 成 本 。 
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2. 非 关 系 型 数据 库 


分 布 式 非 关 系 型 数据 库 是 指 那些 非 关 系 型 的 .分 布 式 的 \ 不 保证 遵循 ACID 原则 的 数 
据 存储 系统 。 非 关系 型 (NoSQL) 分 布 式 数据 库 的 理论 基础 一 般 遵 循 BASE 模型 "中 ,该 
模型 是 基于 CAP 理论 逐步 演化 而 来 ,是 Basically Available( 基 本 可 用 ) Soft-state( 软 状 
态 /柔性 事务 ) 和 Eventually Consistent( 最 终 一 致 性 ) 三 个 词组 的 简写 。BASE 模型 是 不 
遵循 ACID 原则 的 , 它 完 全 不 同 于 ACID 模型 ,通过 牺牲 强 一 致 性 ,来 获得 基本 可 用 性 和 
柔性 可 靠 性 并 要 求 达到 最 终 一 致 性 。 

注 : 最 终 一 致 性 (Eventually Consistent) 是 指 : 经 过 一 段 时 间 以 后 ,更 新 的 数据 会 到 
达 系统 中 的 所 有 相关 节点 。 

分 布 式 非 关 系 型 数据 库 的 数据 存储 不 需要 固定 的 表 结构 ,通常 也 不 存在 连接 操作 。 
在 海量 的 数据 存 取 上 具备 关系 型 数据 库 无 法 比拟 的 性 能 优势 。 非 关系 型 数据 库 可 按 功能 
分 为 文档 数据 库 (Document Databases) 、 图 数据 库 (Graph Databases) 、 键 值 数据 库 (Key/ 
Value Databases)、 列 存储 数据 库 (Columnar Databases) 和 内 存 数 据 网 络 (In-Memory 
Data Grids)。 下 面 针 对 不 同类 型 的 分 布 式 非 关 系 型 数据 库 产品 进行 简单 举例 介绍 。 

1) 文档 数据 库 

MongoDB: 是 一 个 可 扩展 的 、 高 性 能 、 开 源 \、 模 式 自由 的 文档 型 数据 库 。 

CounchDB: 是 一 个 使 用 JSON 作为 数据 格式 的 文档 数据 库 , 并 可 以 通过 视图 来 操纵 
文档 的 组 织 和 呈现 。 

Couchbase: 是 一 个 分 布 式 的 面向 文档 的 NoSQL 数据 库 管理 系统 ,该 系统 联合 了 
CouchDB 的 简单 和 可 靠 以 及 Memcached 的 高 性 能 以 及 Membase 的 伸缩 性 。 

RavenDB: 是 一 个 新 的 . NET. F Linq 的 开源 文档 数据 库 , 旨 在 Windows 平台 下 
提供 一 个 高 性 能 ,结构 简单 .灵活 ,可 扩展 的 NoSQL 存储 。 

2) 图 数据 库 

Neo4j: 是 一 个 高 性 能 的 NoSQL 图 形 数 据 库 , 使 用 图 相关 的 概念 来 描述 数据 模型 ， 
把 数据 保存 为 图 中 的 节点 以 及 节点 之 间 的 关系 ,并 且 很 多 应 用 中 数据 之 间 的 关系 ,可 以 很 
直接 地 使 用 图 中 节点 和 关系 的 概念 来 建 模 。 

InfiniteGraph: 是 一 个 图 数据 库 , 用 来 维持 和 遍历 对 象 间 的 关系 ,支持 分 布 式 数 据 
存储 。 

AllegroGraph: 是 一 个 基于 W3C 标准 的 为 资源 描述 框架 构建 的 图 形 数据 库 , 它 为 处 
理 链接 数据 和 Web 语义 而 设计 ,支持 SPARQL .RDFS++ 和 Prolog. 

3) 键 值 数 据 库 

Riak: 是 一 个 开源 分 布 式 键 值 数 据 库 ,支持 数据 复制 和 容错 。 

Redis: 是 一 个 开源 的 键 值 存储 数据 库 ,支持 主 从 式 复制 事务 ,Pub/Sub、Lua 脚本 ， 
还 支持 给 Key 添加 时 限 。 

Dynamo: 是 一 个 键 值 分 布 式 数 据 存储 , 它 直 接 由 亚马逊 Dynamo 数据 库 实现 ,在 亚 
马 逊 S3 产品 中 使 用 。 

Oracle NoSQL Database: 来 自 Oracle 的 键 值 NoSQL 数据 库 , 它 支持 事务 ACID 和 
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JSON ,具备 数据 备份 和 分 布 式 键 值 存储 系统 。 

Voldemort; 具备 数据 备份 和 分 布 式 键 值 存储 系统 。 

Aerospike: 是 一 个 键 值 存储 ,支持 混合 内 存 架构 ,通过 强 一 致 性 和 可 调 一 致 性 保证 
数据 的 完整 性 。 

4) 列 存 储 数据 库 

Cassandra; 是 列 存储 数据 库 ,支持 跨 数 据 中 心 的 数据 复制 , 它 的 数据 模型 提供 列 索 
引 ,log-structured 修改 ,支持 反 规 范 化 ,实体 化 视图 和 嵌入 超 高 速 缓存 。 

HBase: 是 一 个 开源 、 分 布 式 ` 面 向 列 存储 的 模型 ,在 Hadoop 和 HDFS 之 上 提供 了 
像 Bigtable 一 样 的 功能 。 

Amazon SimpleDB: 是 一 个 非 关 系 型 数据 存储 :开发 者 可 使 用 Web 服务 请 求 存 储 和 
查询 数据 项 。 

Apache Accumulo: 是 一 个 有 序 的 、 分 布 式 键 值 数据 存储 ,基于 Google 的 Bigtable iZ 
计 , 建 立 在 Apache Hadoop.ZooKeeper 和 Thrift 技术 之 上 。 

Hypertable: 是 一 个 开源 .可 扩展 的 数据 库 ,模仿 Bigtable, 支 持 分 片 。 

5) 内 存 数 据 网 络 

Hazelcast; 是 一 个 开源 数据 分 布 平 台 , 它 允许 开发 者 在 数据 库 集群 之 上 共享 和 分 制 
数据 。 

Oracle Coherence: 提供 了 常用 数据 的 快速 访问 能 力 ,一 致 性 支持 事务 处 理 能 力 和 数 
据 的 动态 划分 。 

Terracotta BigMemory: 包括 一 个 Ehcache 界面 、Terracotta 管理 控制 台 
BigMemory-Hadoop 连接 器 。 

GemFire: 是 一 个 分 布 式 数据 管理 平台 ,也 是 一 个 分 布 式 的 数据 网 格 平台 ,支持 内 存 
数据 管理 ,复制 ,划分 .数据 识别 路 由 和 连续 查询 。 

Infinispan: 是 一 个 基于 Java 的 开源 键 值 NoSQL 数据 存储 和 分 布 式 数据 节点 平台 ， 
支持 事务 ,Peer-to-Peer 及 Client/Server 架构 。 

GridGain: 是 一 个 分 布 式 、 面 向 对 象 .基于 内 存 .SQL 十 NoSQL 键 值 数 据 库 , 支 持 
ACID 事务 。 


2.3 大 数据 分 析 与 挖掘 技术 


大 数据 分 析 与 挖掘 技术 是 大 数据 处 理 生命 周期 中 的 核心 技术 ,因为 大 数据 的 价值 产 
生 于 分 析 过 程 , 即 要 从 海量 的 不 完整 的 \ 有 噪声 的 、 模 糊 的 .绝对 随机 的 数据 中 发 现 隐 含 
在 其 中 有 价值 的 ,潜在 有 用 的 知识 ,从 而 获得 洞察 。 大 数据 的 分 析 与 挖掘 技术 主要 涉及 传 
统 的 数据 分 析 与 挖 所 方法 、 大 数据 分 析 与 挖掘 方法 、 大 数据 分 析 与 挖掘 框架 等 。 


231 传统 数据 分 析 与 挖 据 方 法 


传统 数据 分 析 与 挖掘 方法 主要 是 针对 结构 化 数据 和 事务 处 理 的 关系 型 数据 库 为 主 ， 
根据 不 同 应 用 的 需求 在 此 基础 上 构建 数据 仓库 ,并 选择 相关 数据 进行 分 析 , 常 用 的 分 析 与 
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挖掘 方法 有 数据 挖掘 、 机 器 学 习 、 统 计 分 析 等 。 这 些 传统 的 数据 分 析 与 挖掘 方法 在 处 理 相 
对 较 少 的 结构 化 数据 时 比较 有 效 ,在 面 对 大 数据 分 析 与 挖掘 时 ,有 些 传统 的 数据 分 析 与 挖 
掘 方法 可 以 直接 应 用 于 大 数据 的 分 析 与 挖掘 ,有 的 数据 分 析 与 挖掘 方法 则 需要 做 出 相应 
的 调整 。 下 面 对 适 合 大 数据 技术 的 传统 数据 分 析 与 挖掘 方法 进行 简单 举例 分 析 。 


1. 分 类 分 析 


分 类 分 析 是 数据 挖掘 、 机 器 学 习 和 模式 识别 中 一 个 重要 的 研究 领域 ,通过 对 已 知 类 别 
训练 集 的 分 析 , 从 中 发 现 分 类 规则 ,从 而 来 预测 新 数据 的 类 型 。 分 类 分 析 在 大 数据 中 的 应 
用 非常 频繁 ,而 常见 的 分 类 算法 也 有 很 多 ,不 同 分 类 算法 又 有 很 多 不 同 的 变种 ,常用 的 大 
数据 分 类 算法 有 : 逻辑 回归 (Logistic Regression)、 贝 叶 斯 (Bayesian)、 支 持 向 量 机 
(Support Vector Machines) , 感知 器 (Perceptron and Winnow)、 神 经 网 络 (Neural 
Network)、 随 机 森林 (Random Forests), 有 限 玻 耳 效 曼 机 (Restricted Boltzmann 
Machines) 等 。 

1) 逻辑 回归 

逻辑 回归 是 一 种 利用 预测 数值 型 或 离散 型 变量 来 预测 某 种 事件 的 可 能 性 ,是 一 个 被 
广泛 应 用 在 实际 场景 中 的 算法 。 逻 辑 回归 可 以 用 来 回归 ,也 可 以 用 来 分 类 ,主要 是 二 分 
类 ,即将 两 个 不 同类 别 的 样本 分 开 。 

2) 贝 叶 斯 

贝 叶 斯 分 类 器 的 分 类 原理 是 通过 某 对 象 的 先 验 概 率 , 利 用 贝 叶 斯 公式 计算 出 其 后 验 
概率 , 即 该 对 象 属于 某 一 类 的 概率 ,选择 具有 最 大 后 验 概率 的 类 作为 该 对 象 所 属 的 类 。 

3) 支持 向 量 机 

支持 向 量 机 SVM 是 AT&T Bell 实验 室 的 V. Vapnik 提出 的 针对 分 类 和 回归 问题 
的 统计 学 习 理 论 。 支 持 向 量 机 SVM 对 于 线性 可 分 情况 时 ,可 直接 进行 分 析 ; 对 于 线性 不 
可 分 的 情况 ,通过 使 用 非 线性 映射 算法 将 低 维 输入 空间 线性 不 可 分 的 样本 转化 为 高 维特 
征 空间 使 其 线性 可 分 ,从 而 使 得 高 维特 征 空间 采用 线性 算法 对 样本 的 非 线 性 特征 进行 线 
性 分 析 o 

4) 感知 器 

感知 器 是 由 美国 计算 机 科学 家 罗 森 布 拉 特 (F. Roseblatt) 于 1957 年 提出 的 ,可 谓 是 
最 早 的 人 工 神 经 网 络 , 它 具有 一 层 神 经 元 、 采 用 阅 值 激活 函数 的 前 向 网 络 , 通 过 对 网 络 权 
值 的 训练 ,可 以 对 一 组 输入 矢量 的 响应 达到 元 素 为 0 或 1 的 目标 输出 ,从 而 实现 对 输入 矢 
量 分 类 的 目的 。 

5) 神经 网 络 

神经 网 络 对 外 界 的 输入 样本 具有 很 强 的 识别 能 力 , 可 以 发 现 输入 样本 自身 的 联系 和 
规律 以 及 输入 样本 和 期 望 输出 之 间 的 非 线 性 规律 。 该 分 类 算法 的 重点 是 构造 阔 值 逻辑 单 
元 ,一 个 值 逻辑 单元 是 一 个 对 象 , 它 可 以 输入 一 组 加 权 系数 的 量 , 对 它们 进行 求 和 ,如 果 这 
个 和 达到 或 者 超过 了 某 个 阅 值 , 则 输出 一 个 量 。 

6) 随机 森林 

随机 森林 是 由 Breiman 提出 的 一 种 基于 CART 决策 树 的 组 合 分 类 器 ,该 算法 的 核心 
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思想 是 用 随机 的 方式 建立 一 个 森林 ,森林 里 面 有 很 多 的 决策 树 ,随机 森林 中 的 任意 两 棵 决 
策 树 是 相对 独立 的 。 对 于 新 来 的 测试 样本 ,通过 每 棵 决策 树 都 对 它 进 行 分 类 决策 ,最 后 的 
分 类 结果 由 投票 法 得 出 ,并 且 其 输出 的 类 别 是 由 个 别 树 输 出 的 类 别 的 众 数 而 定 。 

7) ARRE EHL 

有 限 玻 耳 效 曼 机 是 Hinton 和 Sejnowski F 1986 年 提出 的 一 种 可 用 随机 神经 网 络 来 
解释 的 概率 图 模型 。 该 算法 是 在 玻 尔 兹 曼 机 的 基础 上 提出 的 一 类 具有 两 层 结 构 、 对 称 连 
接 且 无 自 反馈 的 随机 神经 网 络 模 型 , 层 间 全 连接 , 层 内 无 连接 ,其 输出 只 有 两 种 状态 (未 激 
活 和 激活 状态 ) ,而 状态 的 具体 取 值 则 根据 概率 统计 法 则 来 决定 。 

在 应 用 这 些 分 类 算法 时 ,需要 根据 特定 的 应 用 场景 进行 算法 的 选择 ,因为 不 同 的 分 类 
算法 在 不 同 的 数据 集 上 表现 的 效果 不 同 。 分 类 算法 的 应 用 也 非常 广泛 ,如 银行 中 风险 评 
估 、 市 场 营销 客户 类 别 细 分 .文本 检索 .搜索 引擎 分 类 、 安 全 领域 中 的 入 侵 检 测 等 。 例 如 ， 
腾讯 广 点 通 就 是 大 数据 分 类 算法 的 一 个 典型 应 用 , 它 是 基于 腾讯 大 社交 网 络 体系 的 效果 
广告 营销 产品 ,在 腾讯 大 社交 平台 的 海量 用 户 积累 的 基础 上 ,运用 大 数据 技术 ,进行 以 人 
为 核心 的 数据 挖掘 ,实现 精准 的 广告 推荐 。 这 种 基于 大 数据 的 实时 精准 推荐 系统 的 核心 
思想 就 是 针对 不 同 的 推荐 场景 ,采用 不 同 的 数据 和 不 同 的 算法 策略 。 


2. 聚 类 分 析 


聚 类 是 在 给 定 的 数据 集合 中 寻找 同类 的 数据 子 集合 ,每 一 个 子 集合 形成 一 个 类 簇 , 同 
类 得 中 的 数据 具有 更 大 的 相似 性 。 聚 类 分 析 能 在 无 先 验 信息 的 条 件 下 ,探测 数据 在 特征 
空间 中 的 分 布 或 类 别 结构 ,从 而 提供 潜在 有 价值 的 信息 。 由 于 大 数据 具有 数据 类 型 多 , 海 
量 性 等 特点 ,因此 针对 大 数据 进行 聚 类 分 析 无 论 从 理论 .算法 还 是 实践 方面 仍 有 很 多 极 具 
挑战 性 的 问题 亟待 解决 。 常 用 的 大 数据 聚 类 算法 有 K 均值 (K-means Clustering) ,模糊 
K 均值 (Fuzzy K-means)、 期望 最 大 化 聚 类 (Expectation Maximization) ,均值 漂移 聚 类 
(Mean Shift Clustering)、 层 次 聚 类 (Hierarchical Clustering)、 狄 里 克 雷 过 程 聚 类 
(Dirichlet Process Clustering), LDA 聚 类 (Latent Dirichlet Allocation), Canopy 聚 类 
(Canopy Clustering)、 谱 聚 类 (Spectral Clustering) 等 。 下 面 简单 介绍 几 种 常用 聚 类 
算法 。 

D K 均值 

K 均值 聚 类 算法 是 最 为 经 典 的 基于 划分 的 聚 类 方法 ,该 算法 的 基本 思想 是 以 空间 K 
个 点 为 中 心 进行 聚 类 ,对 最 靠近 它们 的 对 象 归 类 ,通过 和 迭代 的 方法 ,逐次 更 新 各 聚 类 中 心 
的 值 , 直 至 得 到 最 好 的 聚 类 结果 。 

2) 期 望 最 大 化 聚 类 

期 望 最 大 化 聚 类 算法 是 在 概率 模型 中 寻找 参数 最 大 似 然 估计 或 者 最 大 后 验 估计 的 算 
法 ,其 中 概率 模型 依赖 于 无 法 观测 的 隐藏 变量 。 因 此 ,该 算法 适用 于 一 种 解决 存在 隐 含 变 
量 优化 问题 的 有 效 方 法 。 

3 均值 漂移 聚 类 

均值 漂移 聚 类 算法 最 早 是 由 Fukunaga 等 人 于 1975 年 在 一 篇 关于 概率 密度 梯度 函 
数 的 估计 中 提出 来 的 ,其 基本 思想 是 先 算出 当前 点 的 偏 移 均值 ,移动 该 点 到 其 偏 移 均值 ， 
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然后 以 此 为 新 的 起 点 继续 移动 ,直到 满足 一 定 的 条 件 结束 。 

4) 层次 聚 类 

层次 聚 类 算法 是 通过 对 数据 集 按照 某 种 方法 进行 层次 分 解 ,直到 满足 某 种 条 件 为 止 。 
按照 分 类 原理 的 不 同 , 又 可 以 细 分 为 凝聚 和 分 裂 两 种 方法 ,凝聚 的 层次 聚 类 是 一 种 自 底 向 
上 的 策略 ,而 分 裂 的 层次 聚 类 采用 自 项 向 下 的 策略 。 

5) RX 

谱 聚 类 是 一 种 基于 图 论 的 聚 类 方法 , 它 能 够 识别 任意 形状 的 样本 空间 且 收 敛 于 全 局 
最 优 解 ,其 基本 思想 是 利用 样本 数据 的 相似 矩阵 进行 特征 分 解 后 得 到 的 特征 向 量 进行 聚 
类 。 该 聚 类 算法 可 直接 用 于 大 数据 集 ,并 广泛 应 用 于 计算 机 视觉 .语音 识别 .文本 挖掘 等 
领域 。 


3. 关联 规则 


关联 规则 概念 最 早 是 由 Agrawal 等 人 于 1993 年 提出 的 , 即 发 现 大 量 数据 中 数据 项 
之 间 的 相关 联系 。 关 联 规则 比较 经 典 的 算法 有 Apriori 算法 和 频繁 树 (FP-Tree) 算 法 ,后 
来 又 纷纷 提出 了 各 种 改进 算法 或 者 不 同 的 算法 ,下 面 就 对 这 两 种 算法 进行 简单 介绍 。 

1) Apriori 算法 

Apriori 算法 是 一 种 挖掘 关联 规则 的 频繁 项 集 算法 ,其 核心 思想 是 基于 两 阶段 频 集 思 
想 的 递 推算 法 。 该 关联 规则 在 分 类 上 属于 单 维 . 单 层 , 布 尔 关联 规则 ,主要 用 来 在 大 型 数 
据 库 上 进行 快速 挖掘 关联 规则 。 

2) FP-Tree 算法 

FP-Tree 算法 是 由 J. Han 等 人 于 2000 年 提出 的 ,针对 Apriori 算法 的 固有 缺陷 提出 
了 不 产生 候选 频繁 项 集 的 方法 即 FP-Tree 算法 。 该 算法 直接 将 事务 数据 库 压缩 成 一 个 
频繁 模式 树 ,然后 通过 这 棵 树 生成 关联 规则 。 

Apriori 算法 和 FP-Tree 算法 是 基于 单 点 的 算法 ,无 法 满足 对 海量 数据 的 处 理 需 求 。 
因此 ,研究 人 员 提 出 了 多 种 基于 Apriori 算法 和 FP-Tree 算法 的 并 行 挖掘 算法 ,其 基本 思 
想 是 将 数据 平均 分 配 到 N 个 计算 节点 上 ,在 每 个 节点 上 都 采用 类 似 Apriori 和 FP-Tree 
的 算法 。 这 样 解决 了 挖掘 效率 问题 ,但 是 由 于 并 行 计 算是 由 很 多 计算 节点 组 成 ,仍然 会 带 
来 如 节点 失效 、 负 载 不 均衡 等 很 多 问题 。 


4. 回归 分 析 


回归 分 析 (Regression Analysis) 是 确定 两 种 或 两 种 以 上 变量 之 间 相 互 依赖 的 定量 关 
系 的 一 种 统计 分 析 方法 , 即 通过 规定 因 变量 和 自 变 量 来 确定 变量 之 间 的 因果 关系 。 回 归 
分 析 与 关联 规则 分 析 不 同 ,关联 规则 分 析 重 点 在 于 分 析 变 量 之 间 是 否 相 关 , 及 相关 的 密切 
程度 ;回归 分 析 重 点 在 于 分 析 变 量 之 间 是 否 存在 因果 性 。 例 如 ,从 关联 规则 分 析 得 知 A 
和 也 变量 密切 相关 ,但 是 这 两 个 变量 之 间 是 谁 影响 谁 , 影 响 程 度 如 何 , 则 需要 通过 回归 分 
析 方 法 来 确定 。 回 归 分 析 按 照 涉及 自 变 量 的 多 少 , 可 分 为 一 元 回归 分 析 和 多 元 回归 分 析 ; 
按照 自 变量 和 因 变 量 之 间 的 关系 类 型 ,可 分 为 线性 回归 分 析 和 非 线 性 回归 分 析 。 下 面 介 
绍 在 大 数据 中 经 常 使 用 的 两 种 回归 分 析 算 法 一 一 局 部 加 权 线 性 回归 (Locally Weighted 
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Linear Regression) 和 主 成 分 回归 分 析 法 (Principal Components Analysis) 。 

1) 局 部 加 权 线 性 回归 

局 部 加 权 线 性 回归 算法 是 由 Cleveland 提出 ,后 来 由 Cleveland 和 Develin 推广 到 多 
个 自 变量 的 情形 ,该 算法 主要 根据 已 有 的 训练 样本 ,对 已 选择 的 特征 进行 多 项 式 加 权 拟 合 
并 计算 出 权重 值 , 并 根据 计算 出 的 权重 值 利 用 最 小 二 乘法 来 估算 预测 结果 。 该 算法 每 次 
预测 都 要 根据 原 有 的 训练 样本 去 重新 学 习 计 算 权 值 ,这 样 使 得 计算 代价 比较 高 。 

2) 主 成 分 回归 分 析 法 

主 成 分 回归 分 析 法 是 一 种 把 多 指标 转化 为 少数 几 个 综合 指标 的 降 维 思想 的 回归 分 析 
方法 。 在 实证 问题 的 研究 中 ,为 了 全 面 、 系 统 地 分 析 问 题 ,必须 考虑 众多 因素 ,而 这 些 涉 及 
的 因素 一 般 称 为 指标 ,每 个 指标 都 在 不 同 程度 上 反映 了 所 研究 问题 的 某 些 信息 ,并 且 指 标 
之 间 彼 此 有 一 定 的 相关 性 。 这 些 指标 太 多 会 增加 计算 量 和 增加 分 析 问 题 的 复杂 性 ,这 种 
情况 就 可 以 通过 主 成 分 回归 分 析 法 来 选择 合理 指标 ,从 而 有 助 于 问题 的 分 析 。 


232 大 数据 分 析 与 挖 据 方 法 


随 着 海量 半 结 构 化 和 非 结 构 化 数据 的 迅速 增长 ,给 传统 的 数据 分 析 与 挖掘 方法 带 来 
了 冲击 和 挑战 。 因 为 传统 数据 分 析 与 挖掘 方法 大 多 都 是 以 数据 量 小 为 前 提 的 、 基 于 内 存 
基础 上 所 构造 的 算法 ,而 面 对 大 数据 时 ,就 需要 保证 具有 基于 外 存 以 及 处 理 大 规模 数据 集 
合 的 能 力 。 下 面 主 要 针对 大 数据 的 常用 分 析 与 挖掘 方法 进行 简单 举例 说 明 , 虽 然 这 些 方 
法 并 不 能 完全 覆盖 大 数据 分 析 所 要 处 理 的 所 有 问题 ,但 是 可 以 处 理 大 数据 分 析 所 面临 的 
一 些 共 性 问题 。 


1. 布 隆 过 滤器 


布 隆 过 滤器 (Bloom Filter) 59 是 Howard Bloom 在 1970 年 提出 的 一 种 多 哈 希 函数 映 
射 的 快速 查找 算法 ,具有 很 好 的 空间 和 时 间 效 率 ,被 用 来 非常 快速 地 判定 某 个 元 素 是 否 在 
一 个 集合 之 外 。 这 种 检测 只 会 对 在 集合 内 的 数据 错 判 ,而 不 会 对 不 是 集合 内 的 数据 进行 
错 判 , 即 每 个 检测 请 求 返 回 只 有 “在 集合 内 (可 能 错 )”" 和 “不 在 集合 内 (绝对 不 在 集合 内 )” 
两 种 情况 。 

布 隆 过 滤器 的 基本 思想 是 : 当 一 个 元 素 被 加 入 集合 时 ,通过 K 个 Hash 函数 将 这 个 
元 素 映射 成 一 个 位 陈列 (Bit Array) 中 的 K 个 点 ,并 把 这 些 点 置 为 1, 检索 时 ,如 果 发 现 所 
有 Hash 函数 对 应 位 都 是 1, 说 明 被 检索 元 素 很 可 能 在 集合 中 ;如 果 发 现 所 有 Hash 函数 
对 应 位 有 任何 一 个 不 为 1, 则 说 明 被 检索 元 素 一 定 不 在 集合 中 。 该 算法 的 优点 就 是 插入 
和 查询 时 间 都 是 常数 。 另 外 ,查询 元 素 时 却 不 保存 元 素 本 身 , 具 有 良好 的 安全 性 。 缺 点 也 
是 当 插入 的 元 素 越 多 , 错 判 “ 在 集合 内 ?的 概率 就 越 大 了 。 另 外 , 布 隆 过 滤器 也 不 能 删除 一 
个 元 素 , 因 为 多 个 元 素 哈 希 的 结果 可 能 在 布 隆 过 滤器 结构 中 占用 的 是 同一 个 位 ,如 果 删 除 
了 一 个 比特 位 ,可 能 会 影响 多 个 元 素 的 检测 。 该 算法 通过 极 少 的 错误 换取 了 存储 空间 的 
极 大 节省 。 因 此 ,适合 于 能 容忍 低 错 误 率 的 应 用 场合 布 隆 过 滤器 ,不 适合 那些 “ 零 错误 ”的 
应 用 场合 。 目 前 , 布 隆 过 滤器 被 广泛 应 用 在 分 布 式 系统 中 ,用 来 判断 某 个 元 素 是 否 存在 于 
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大 数据 量 的 集合 中 ,如 布 隆 过 滤器 应 用 在 GFSNHDFSNCassandraN Bigtable 等 分 布 式 文件 
系统 中 ,以 减少 不 存在 的 行 或 列 在 磁盘 上 的 查询 ,从 而 大 大 提高 了 数据 库 的 查询 操作 
性 能 。 


2. 哈 希 算法 


哈 希 算法 将 任意 长 度 的 二 进 制 值 映 射 为 较 短 的 固定 长 度 的 二 进 制 值 ,用 来 加 快 查找 
的 速度 ,是 一 种 典型 的 “空间 换 时 间 ” 的 快速 存 取 角度 设计 的 算法 。 这 个 小 的 二 进 制 值 称 
为 哈 希 值 ,映射 函数 叫做 散 列 函 数 , 存 放 哈 希 值 的 数组 叫做 散 列表 。 喻 希 算法 本 质 上 就 是 
根据 关键 码 值 (Key/ Value) 直接 进行 访问 的 数据 结构 ,把 关键 码 (Key) 通 过 一 个 固定 的 算 
法 函数 ( 即 喻 希 函数 ) 转 换 成 一 个 整 型 数字 ,然后 将 该 数字 对 数组 长 度 进行 取 余 , 取 余 结 果 
作为 数组 的 下 标 , 将 值 (Value) 存 储 在 以 该 数字 为 下 标的 数组 空间 中 。 当 使 用 喻 希 表 进 行 
查询 操作 时 ,就 再 次 使 用 哈 希 函数 将 关键 码 (Key) 转 换 为 对 应 的 数据 下 标 , 并 定位 到 该 空 
间 获 取 值 (Value) 。 哈 希 算 法 的 这 种 将 任意 长 度 的 输入 经 过 映射 后 得 到 固定 长 度 的 输出 ， 
是 一 种 单 向 不 可 逆 的 映射 过 程 。 因 此 , 哈 希 算法 一 般 用 于 快速 查找 和 加 密 算法 ,常见 的 哈 
希 算法 包括 MD2,MD4,MD5 和 SHA-1 等 。 

当 处 理 海量 的 数据 时 ,可 以 采用 分 布 式 喻 希 算法 ,该 算法 的 核心 思想 是 采用 分 而 治之 
的 方法 ,将 海量 数据 切 分 为 若干 份 来 进行 处 理 ,并 且 在 处 理 的 过 程 中 要 兼顾 内 存 的 使 用 情 
况 和 处 理 并 发 量 以 及 一 致 性 等 情况 。 


3. 字典 树 


字典 树 (Trie Tree) 是 一 种 树 状 结构 ,是 一 种 哈 希 树 的 变种 ,其 核心 思想 是 “通过 空间 
换 时 间 ”, 利 用 字符 串 的 公共 前 级 来 降低 查询 时 间 的 开销 以 达到 提高 效率 的 目的 。 该 算法 
的 基本 思想 与 字典 的 查询 过 程 很 相似 , 当 要 查 一 个 单词 是 不 是 在 字典 树 中 时 ,首先 看 该 单 
词 的 第 一 个 字母 是 否 在 字典 的 第 一 层 , 如 果 不 在 ,说 明 字典 树 里 没有 该 单词 ;如 果 在 ,就 在 
该 字母 的 孩子 节点 里 查找 是 否 有 单词 的 第 二 个 字母 ,如 果 没 有 ,说 明 没有 该 单词 ;有 的 话 ， 
继续 用 同样 的 方法 查找 ,直到 遍历 完整 个 树 为 止 。 字 典 树 不 仅 可 以 用 来 存储 字母 ,也 可 以 
用 来 存储 数字 等 其 他 数据 。 该 算法 的 典型 应 用 是 用 于 统计 和 排序 大 量 的 字符 串 ( 但 不 仅 
限于 字符 串 ) ,所 以 经 常 被 搜索 引擎 系统 用 于 文本 词 频 统计 。 它 的 优点 是 最 大 限度 地 减少 
无 谓 的 字符 串 比 较 , 查 询 效率 比 哈 希 表 高 。 


4. 深度 学 习 


大 数据 分 析 与 挖掘 技术 主要 是 对 海量 的 结构 化 和 非 结 构 化 数据 进行 高 效 的 深度 分 
Tr ,挖掘 内 在 隐 性 知识 ,如 从 网 页 数据 中 理解 和 识别 语义 ,情感 等 ,把 海量 复杂 多 源 的 语 
TELE ER .视频 数据 转化 为 机 器 可 识别 .具有 明确 语义 的 信息 等 。 如 果 采 用 传统 的 机 器 学 
习 方法 ,首先 要 通过 先 验 知识 人 工 建 立 数据 模型 来 分 析 数 据 , 并 使 用 大 量 样本 数据 进行 训 
练 , 从 而 获得 从 数据 中 提取 知识 的 能 力 。 然 而 ,对 于 非 结 构 化 数据 而 言 , 靠 人 工 建 立 分 析 
数学 模型 的 传统 机 器 学 习 方 式 很 难 挖掘 出 隐藏 在 数据 中 的 隐 含 知识 。 因 此 ,通过 人 工 智 
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度 学 习 是 一 种 基于 无 监督 特征 学 习 和 特征 层次 结构 的 学 习 方法 ,是 机 器 学 习 研 究 中 的 一 
个 新 领域 ,其 动机 在 于 建立 、 模 拟人 脑 进行 分 析 学 习 的 神经 网 络 ,通过 模仿 人 脑 的 机 制 来 
解释 数据 。 

深度 学 习 本 质 上 是 一 个 人 工 神经 网 络 ,两 者 都 包含 输入 层 、 输 出 层 及 中 间 的 若干 隐藏 
层 组 成 的 多 层 网 络 ,每 层 都 有 若干 节点 及 连接 这 些 点 的 边 ,同一 层 以 及 跨 层 节点 之 间 相 互 
无 连接 。 每 一 层 可 以 看 作 是 一 个 逻辑 回归 模型 ,在 训练 数据 集 上 会 学 习 出 边 的 权 值 , 从 而 
建立 模型 。 两 者 的 区 别 在 于 深度 学 习 是 含 多 个 隐藏 层 的 多 层 感知 器 (人 工 神经 网 络 虽 然 
也 称 作 多 层 感知 器 ,但 实际 是 一 种 只 含有 一 层 隐 藏 层 节点 的 浅 层 模型 ), 通 过 组 合 低层 特 
征 形成 更 加 抽象 的 高 层 表示 属性 类 别 或 特征 ,以 发 现 数据 的 分 布 式 特征 表示 ,如 图 2. 11 
所 示 。 


输出 模式 


输出 神经 元 


输入 神经 元 


输入 模式 WAE 
(a) 神经 网 络 (b) 深度 学 习 
图 2.11 人 工 神经 网 络 与 深度 学 习 


图 2. 11 给 出 了 神经 网 络 与 深度 学 习 的 区 别 , 传 统 的 神经 网 络 采用 的 是 反 向 传播 (BP 
机 制 ) 的 方式 进行 , 即 采 用 迭代 的 算法 来 训练 整个 网 络 , 随 机 设 定 初 值 ,计算 当前 网 络 的 输 
出 ,然后 根据 当前 计算 的 输出 值 和 实际 的 标记 值 之 间 的 差 去 改变 前 面 各 层 的 参数 ,直到 收 
敛 。 而 深度 学 习 采 用 逐 层 训练 机 制 (BP 机 制 不 适合 深度 学 习 , 因 为 对 于 一 个 7 层 以 上 的 
深度 网 络 , 残 差 传播 到 最 前 面 的 层 将 变 得 很 小 ,会 出 现 所 谓 的 梯度 扩散 ) ,强调 了 模型 结构 
的 深度 (通常 有 5 一 10 层 以 上 的 隐藏 节点 ) ,明确 突 出 了 特征 学 习 的 重要 性 , 即 通过 逐 层 特 
征 变 换 , 将 样本 在 原 空间 的 特征 表示 变换 到 一 个 新 特征 空间 ,从 而 使 分 类 或 预测 更 加 容 
易 。 利 用 大 数据 来 学 习 特 征 ,更 能 够 刻画 数据 的 丰富 内 在 信息 。 目 前 ,深度 学 习 技术 已 经 
在 语音 识别 和 图 像 识别 方面 取得 了 很 好 的 效果 ,如 果 要 在 大 数据 分 析 上 广泛 应 用 ,还 有 大 
量 理 论 和 工程 问题 需要 解决 。 
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面 对 海量 的 结构 化 、 半 结构 化 和 非 结 构 化 数据 种 类 和 类 型 的 日 益 增多 ,传统 的 结构 化 
数据 分 析 与 挖掘 框架 已 无 法 面 对 数 据 量 达到 PB, EB 或 ZB 级 别 的 数据 ,如 数据 获取 、 存 
储 、 检 索 、 分 析 和 可 视 化 等 。 因 此 ,在 面 对 * 大 数据 ?时 ,需要 新 的 分 析 框 架 才能 满足 海量 数 
据 的 获取 、 存 储 、 分 析 和 可 视 化 ,才能 具有 更 强 的 决策 力 、 洞 察 发 现 力 等 。 根 据 大 数据 处 理 
多 样 性 和 分 析 需 求 驱动 ,产生 了 适合 于 大 数据 批 处 理 的 并 行 计 算 框 架 , 如 Hadoop 
MapReduce, UCBerkeley Spark( 具 备 批 处 理 计算 能 力 ) 等 ;具备 高 实时 性 的 流 式 计算 框 
架 , 如 Twitter Storm, Apache S4, Apache Spark Steaming, Apache Samza 等 ;具有 快速 和 
灵活 的 迭代 计算 框架 ,如 UCBerkeley Spark, HaLoop Twister 等 ;具备 复杂 数据 关系 图 数 
据 的 分 析 框 架 , 如 Google Pregel, Facebook Giraph, Microsoft Trinity, Spark GraphX、 
PowerGraph 等 ;具备 实时 内 存 计 算 能 力 的 大 数据 分 析 框 架 SAP Hana, UCBerkeley 
Spark 等 。 这 几 种 大 数据 分 析 框 架 各 具 特 点 ,都 起 源 于 某 个 特殊 的 应 用 领域 , 表 2. 2 给 出 
了 各 分 析 框 架 的 特点 及 具体 应 用 领域 。 


表 2.2 各 分 析 框 架 特点 及 应 用 领域 


分 类 名 称 特 点 应 用 领域 
批 处 理 框架 MapReduce 高 度 可 扩展 、 高 容错 能 力 、 动 | 数据 分 析 、 日 志 分 析 、 数 据 挖 
UCBerkeley Spark 态 灵 活 的 资源 分 配 掘 \. 机 器 学 习 等 
Twitter Storm 
保证 响应 时 间 的 事务 功能 、 
流 式 计算 框架 Apache S4 消息 精确 处 理 .动态 流 数据 在 线 机 器 学 习 、 连 续 计 算 、 数 据 
Spark Steaming 采集 等 
A 处 理 , 记 录 级 容错 
pache Samza 
UCBerkeley Spark | 循环 控制 .数据 缓存 减少 磁 | 数据 挖掘 ,信息 检索 、 实 时 视频 
选 代 计 算 框架 HaLoop Twister & 1/0 处 理 等 
Wire | SAP Hana m rarum qur | EAM EIE DLA 
UCBerkeley Spark : 2 习 、 可 视 化 模式 分 析 等 
回 分 析 结 果 
人 h 基于 BSP(Bulk Synchronous 
图 计算 框架 Microsoft ie Parallel) 模 型 的 分 布 式 图 计 | 矩阵 计算 \ 面 向 图 计算 .排序 计 
S ark Gral hX z 算 框架 .占用 较 低 资源 的 消 | 算 、 图 索引 、PageRank 等 
SS 息 通 信 机 制 、 同 步 控制 框架 
owerGraph 


AR 2. 2 可 以 看 出 , 批 处 理 框架 适用 于 对 反馈 时 间 要 求 不 是 那么 严 苛 的 离线 数据 分 
析 , 如 离线 统计 分 析 、` 机 器 学 习 、 搜 索引 擎 的 反 向 索引 计算 、 推 荐 引擎 的 计算 等 : 流 式 计算 
框架 主要 适用 于 准 实 时 数据 分 析 , 如 金融 领域 的 风险 管理 、 商 业 智 能 、 精 准 推荐 等 ;迭代 计 
算 框 架 和 内 存 计算 框架 是 一 种 交互 式 数据 分 析 框 架 ,主要 适用 于 对 反馈 时 间 要 求 比较 严 
匣 的 实时 交互 数据 分 析 , 如 在 线 实时 服务 、 实 时 视频 分 析 、 实 时 日 志 分 析 等 ;图 计算 框架 适 
用 于 互联 网 应 用 中 的 PageRank、 排 序 、 社 会 网 络 结 构 分 析 等 。 下 面 对 这 几 种 不 同类 型 的 
大 数据 分 析 与 挖掘 框架 所 处 理 的 数据 形式 和 特征 ,各自 典 型 的 应 用 及 代表 性 的 框架 进行 
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详细 介绍 。 
1. 批 处 理 


批 处 理 分 析 框 架 是 一 种 高 性 能 的 批 处 理 分 布 式 计算 框架 ,主要 用 于 处 理 海 量 的 结构 
化 、 半 结构 化 和 非 结构 化 数据 ,该 分 析 框 架 适 用 于 先 存储 后 计算 ,对 实时 性 要 求 不 高 ,对 数 
据 的 准确 性 和 全 面 性 更 为 重要 的 场景 。 

1) 批 处 理 数 据 的 特征 

批 处 理 的 数据 通常 具有 数据 量 大 、 数 据 精确 度 高 和 数据 价值 密度 低 的 特性 。 数 据 量 
大 主要 体现 在 数据 在 TB 级 别 和 PB 级 别 这 个 量 级 上 ,并 且 数 据 长 期 以 静态 形式 存储 在 磁 
盘 中 ,很 少 进行 更 新 等 操作 ;数据 精度 高 主要 体现 在 批 处 理 的 数据 往往 是 从 实际 的 业务 应 
用 中 沉淀 下 来 .具有 很 高 的 商业 或 应 用 价值 的 数据 ,已 成 为 企业 资产 的 一 部 分 宝贵 财富 ; 
数据 价值 密度 低 主要 体现 在 批 处 理 的 数据 往往 具有 高 维度 、 低 密度 的 特性 ,如 以 视频 批 处 
理 数 据 为 例 , 在 连续 不 间断 的 监控 过 程 中 ,可 能 有 用 的 数据 仅 有 一 两 秒 。 

2) 典型 应 用 

批 处 理 分 析 框 架 可 用 于 分 布 排序 、Web 访问 日 志 分 析 、 反 向 索引 构建 文档 聚 类 、 机 
器 学 习 、 基 于 统计 的 机 器 翻译 等 对 实时 性 要 求 不 高 的 大 规模 数据 处 理工 作 。 在 互联 网 领 
域 中 ,通过 批 处 理 分 析 框 架 可 进行 社交 网 络 的 分 析 , 如 在 Facebook、 微 博 、 微 信 等 以 人 为 
核心 的 社交 网 络 中 所 产生 的 大 量 的 文本 ,图片 . 音 视频 等 多 种 类 型 的 海量 数据 进行 批 处 理 
分 析 , 从 而 发 现 人 与 人 之 间 隐 含 的 关系 等 ,推荐 给 朋友 或 相关 主题 ,提升 用 户 的 体验 。 在 
电子 商务 领域 中 ,如 淘宝 网 拥有 国内 最 具 商 业 价值 的 海量 交易 数据 ,其 主要 活动 角色 包括 
卖家 、 供 应 商 和 买 家 ,通过 搜索 ,浏览 ,收藏 ,交易 ,评价 等 产生 上 千 万 的 成 交 、 收 藏 和 评价 
数据 ,通过 批 处 理 分 析 这 些 数据 ,可 以 精准 地 选择 其 热卖 商品 ,从 而 提升 商品 销量 ,还 可 以 
通过 批 处 理 分 析出 用 户 的 消费 行为 ,为 客户 推荐 相关 商品 ,从 而 挖掘 出 真正 的 商业 价值 ， 
帮助 淘宝 、 商 家 进行 企业 的 数据 化 运营 ,帮助 消费 者 进行 理性 的 购物 决策 。 

3) 具有 代表 性 的 框架 

批 处 理 分 析 框 架 最 具有 代表 性 的 就 是 MapReduce 编程 模型 ,该 框架 采用 无 共享 大 规 
模 集群 系统 ,具有 良好 的 性 价 比 和 可 伸缩 性 ,适合 处 理 各 种 类 型 的 数据 ,如 结构 化 、 半 结构 
化 和 非 结 构 化 数据 ,处 理 的 数据 量 都 在 TB 和 PB 级 别 。MapReduce 框架 将 所 处 理 的 任 
务 分 为 大 量 的 并 行 Map 任务 和 Reduce 汇总 任务 两 类 ,具体 处 理 过 程 是 将 任务 分 发 给 一 
个 主 节点 管理 下 的 各 个 分 节点 共同 完成 (Map 过 程 ), 然 后 通过 整合 各 个 节点 的 中 间 结 
果 , 得 到 最 终结 果 (Reduce 过 程 ) ,如 图 2. 12 所 示 。 因 此 ,用 MapReduce 来 处 理 的 数据 集 
必须 具备 数据 集 可 以 分 解 成 许多 小 的 数据 集 ,而 且 每 个 小 的 数据 集 都 可 以 完全 并 行 地 进 
行 处 理 的 特点 。 


2. 流 式 数 据 分 析 


对 于 无 须 事先 存储 ,可 直接 进行 数据 计算 ,对 实时 性 要 求 比较 高 ,但 对 数据 的 精确 度 
要 求 稍微 宽松 的 应 用 场景 时 , 流 式 数据 分 析 框 架 具有 明显 的 优势 ,使 用 该 框架 更 为 合适 。 
流 式 数据 分 析 框 架 要 求 数据 延迟 较 短 ,实时 性 较 强 , 但 对 数据 精确 度 要 求 往往 较 低 , 这 与 


C» 深入 浅 出 大 数据 


大 数据 计算 任务 


任务 划分 
(Map 过 程 ) 


结果 合并 
(Reduce 过 程 ) 


图 2. 12 MapReduce 框架 的 任务 划分 和 并 行 计算 模型 


批 处 理 分 析 框 架 具有 明显 的 优 劣 互补 特征 。 在 实际 应 用 时 ,可 以 将 两 者 结合 起 来 ,通过 发 
挥 流 式 数据 分 析 的 实时 性 优势 和 批 处 理 分 析 的 精确 性 优势 来 满足 多 种 应 用 场景 在 不 同 阶 
段 的 数据 计算 要 求 。 

1) 流 式 数据 的 特征 

流 式 数据 分 析 框 架 所 处 理 的 数据 通常 具有 实时 性 、 易 失 性 、 突 发 性 、 无 序 性 、 无 限 性 等 
特性 。 流 式 数据 的 实时 性 主要 体现 在 实时 产生 ,实时 计算 、 数 据 价 值 的 有 效 时 间 往 往 较 
短 .结果 反馈 往往 也 需要 保证 及 时 ; 易 失 性 主要 体现 在 数据 流 到 达 后 立即 被 计算 并 使 用 ， 
只 有 极 少 数 的 数据 才 会 被 持久 化 地 保存 下 来 ,其 余 的 数据 会 被 直接 丢弃 ; 突 发 性 主要 体现 
在 数据 的 产生 完全 由 数据 源 确定 ,不同 的 数据 源 在 不 同时 空 范 围 内 的 状态 不 统一 且 极 易 
发 生动 态 变化 ;无 序 性 主要 体现 在 各 数据 流 的 到 达 顺 序 是 不 可 预知 的 ,无 法 保证 新 数据 流 
与 之 前 数据 流 中 的 数据 元 素 顺 序 是 一 致 的 ;无 限 性 主要 体现 在 数据 是 实时 产生 的 ,动态 增 
加 的 ,只 要 数据 源 处 于 活动 状态 ,数据 就 会 一 直 产 生 和 持续 增加 下 去 。 

2) 典型 应 用 

目前 , 流 式 数据 分 析 框 架 主 要 应 用 于 数据 采集 、 搜 索引 擎 .广告 精准 推荐 .商业 智能 、 
金融 领域 的 风险 管理 .社交 网 络 .智能 交通 等 方面 。 在 数据 采集 应 用 方面 ,通过 流 式 数据 
分 析 框 架 主 动 获取 海量 的 实时 数据 ,及 时 地 挖掘 出 有 价值 的 信息 ,如 Facebook 的 Scribe, 
LinkedIn 的 Kafka、Cloudera 的 Flume 等 。 在 搜索 引擎 方面 ,通过 流 式 分 析 框 架 对 引擎 
使 用 者 的 查询 偏好 浏览 历史 .地理 位 置 等 综合 信息 进行 分 析 , 从 而 决定 在 搜索 页 面 中 要 
搬 和 人 什么 广告 .在 什么 位 置 插入 这 些 广告 才能 得 到 最 佳 效果 等 。 在 金融 领域 方面 ,通过 流 
式 数 据 分 析 框 架 可 以 对 日 常 运营 过 程 中 产生 的 大 量具 有 时 效 性 的 结构 化 、 半 结构 化 和 非 
结构 化 数据 进行 流 式 分 析 , 发 现 隐藏 于 其 中 的 内 在 特征 ,可 以 帮助 金融 银行 进行 信用 卡 诈 
骗 检 测 ,保险 诈骗 检测 ,交易 诈骗 检测 ,个 性 化 推荐 服务 等 。 

3) 具有 代表 性 的 框架 

流 式 数 据 分 析 框 架 已 在 业界 得 到 广泛 应 用 ,具有 代表 性 的 有 Twitter 的 Storm、 
Yahoo 的 S4 (Simple Scalable Streaming System), Facebook 的 Puma、Hadoop 的 
HStreaming,Spark Streaming 等 。Storm 是 一 个 免费 开源 、 分 布 式 .高 容错 的 流 式 计算 系 
统 , 经 常用 于 在 线 实时 分 析 、 在 线 机 器 学 习 、 持 续 计算 、 分 布 式 远程 调用 和 ETL 等 领域 。 
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Yahoo 的 S4 是 一 个 通用 的 分布 式 、 可 扩展 、 分 区 容错 、 可 插 拔 的 流 式 系统 , Yahoo 开发 
S4 主要 是 为 了 解决 搜索 广告 的 展现 及 处 理 用 户 的 点 击 反 馈 。Facebook 使 用 Puma 和 
HBase 相 结 合 来 处 理 实时 数据 ,使 批 处 理 计 算 平 台 具 备 一 定 实时 能 力 。HStreaming 是 
Hadoop 的 一 个 实时 组 件 , 能 让 Hadoop 平台 具备 实时 数据 处 理 能 力 。Spark Streaming 
是 建立 在 Spark 上 的 应 用 框架 ,利用 Spark 的 底层 框架 作为 其 执行 基础 ,并 构建 了 
DStream 的 行为 抽象 ,用 户 可 以 在 数据 流 上 进行 实时 分 析 操 作 。 


3. 交互 式 数据 分 析 


对 于 存储 在 系统 中 的 数据 文件 能 够 被 及 时 处 理 修 改 , 同 时 处 理 结果 可 以 立刻 被 使 用 
的 这 种 交互 式 的 应 用 场景 时 ,交互 式 数据 分 析 框 架 则 具有 明显 优势 。 其 中 ,迭代 计算 框架 
和 内 存 计算 框架 都 是 一 种 交互 式 数 据 分 析 框 架 。 

1) 交互 式 数据 的 特征 

与 非 交 互 式 数据 相 比 ,交互 式 数据 处 理 更 为 灵活 、 直 观 \ 便 于 控制 ,数据 以 对 话 的 方式 
输入 ,系统 便 提供 相应 的 数据 或 者 提示 信息 ,引导 其 逐步 完成 所 需 的 操作 ,直至 获得 最 后 
处 理 结果 。 

2) 典型 应 用 

目前 ,交互 式 数据 分 析 框 架 主 要 应 用 于 需要 人 机 交互 并 实时 反馈 结果 的 应 用 场景 ,如 
搜索 引擎 .电子 邮 件 、 即 时 通信 、 社 交 网 络 、 微 博 、 博 客 等 。 用 户 可 以 在 这 些 平台 上 获取 或 
分 享 各 种 信息 ,并 与 平台 之 间 进 行 相应 的 数据 交互 。 

3) 具有 代表 性 的 框架 

交互 式 数据 分 析 框 架 具 有 代表 性 的 有 Berkeley 的 Spark。Spark 是 一 个 基于 内 存 计 
算 的 .可 扩展 的 开源 集群 计算 系统 ,是 基于 MapReduce 算法 实现 的 分 布 式 计算 ,拥有 
MapReduce 所 具有 的 优点 ,但 不 同 于 MapReduce 的 是 Job 中 间 输 出 和 结果 可 以 保存 在 
内 存 中 ,从 而 不 再 需要 读 写 HDFS, 适 用 于 需要 多 次 操作 特定 数据 集 的 快速 处 理 、 实 时 返 
回 分 析 结 果 的 应 用 场合 。 


4. 图 数据 分 析 


针对 图 自身 的 结构 特征 ,通过 分 析 图 中 点 和 边 的 强 关联 性 ,可 以 很 好 地 得 到 事物 之 间 
的 关系 。 但 是 , 随 着 图 中 节点 和 边 数 的 增多 ,图 数据 处 理 的 复杂 性 越 来 越 大 ,而 且 难 以 将 
图 分 割 成 若干 完全 独立 的 .可 并 行 处 理 的 问题 时 ,图 数据 分 析 框 架 具 有 明显 的 优势 。 

1) 图 数据 的 特征 

图 数据 的 种 类 繁多 ,如 生物 、 化 学 、 计 算 机 视觉 .模式 识别 、 社 会 网 络 、 知 识 发 现 、 情 报 
分 析 等 领域 的 数据 都 可 使 用 图 数据 来 表示 。 图 数据 中 包括 节点 及 连接 节点 的 边 , 并 且 数 
据 之 间 是 相互 关联 的 。 

2) 典型 应 用 

图 能 够 很 好 地 表示 各 实体 之 间 的 关系 。 因 此 ,在 各 个 领域 得 到 了 广泛 的 应 用 ,如 自然 
科学 领域 .交通 领域 .互联 网 领域 的 应 用 等 。 在 互联 网 领域 中 ,Facebook、Twitter 等 新 兴 
服务 利用 图 数据 分 析 框 架 建立 了 大 量 的 在 线 社会 网 络 关 系 ,用 图 来 表示 人 与 人 之 间 的 关 
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系 ; 在 交通 领域 中 ,通过 图 数据 分 析 框架 可 在 动态 网 络 交通 中 查找 最 短路 径 等 。 

3) 具有 代表 性 的 框架 

由 于 不 同 领域 的 图 数据 的 处 理 需求 不 同 ,因此 ,没有 一 个 通用 的 图 数据 分 析 框 架 可 以 
满足 所 有 领域 的 需求 。 当 前 主要 的 图 数据 分 析 框 架 有 Google Pregel, Facebook Giraph, 
Microsoft Trinity 等 。Pregel 是 Google 提出 的 基于 BSP(Bulk Synchronous Parallel) 模 
型 的 分 布 式 图 计算 框架 ,主要 用 于 图 遍历 (BFS) 、 最 短路 径 (SSSP)、PageRank 计算 等 。 
Giraph 是 基于 批量 同步 并 行 图 计算 模型 ,可 以 实现 对 不 同 实体 间 的 万 亿 个 连接 进行 分 
Ër. Trinity 是 Microsoft 推出 的 一 款 建立 在 分 布 式 云 存 储 上 的 图 计算 模型 ,可 以 并 发 执 
行 PageRank、 最 短路 径 查询 .频繁 子 图 挖掘 以 及 随机 游 走 等 操作 。 


2.4 大 数据 应 用 与 展现 技术 


大 数据 应 用 与 展现 技术 是 利用 大 数据 分 析 与 挖掘 的 结果 ,为 用 户 提供 辅助 决策 ,发 掘 
潜在 价值 的 过 程 。 大 数据 应 用 与 展现 技术 一 定 要 与 领域 知识 相 结合 ,在 不 同 的 领域 ,不 同 
的 应 用 需求 下 ,大 数据 的 获取 、 分 析 和 展现 方式 都 不 同 。 因 此 ,大 数据 应 用 与 展现 技术 的 
研究 需要 开展 数据 特征 和 业务 特征 的 研究 ,需要 开展 大 数据 的 应 用 分 类 和 技术 需求 分 析 。 
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目前 ,大 数据 应 用 目前 朝 着 两 个 方向 发 展 , 一 种 是 以 盈利 为 目标 的 商业 大 数据 应 用 ， 
另 一 种 是 不 以 盈利 为 目的 ,侧重 于 为 社会 公众 提供 服务 的 大 数据 应 用 。 商 业 大 数据 应 用 
主要 是 以 Facebook Google 淘宝 百度 等 公司 为 代表 ,以 自身 拥有 的 海量 用 户 信息 、 行 
为 ,位置 等 数据 为 基础 ,提供 个 性 化 广告 推荐 .精准 化 营销 .经营 分 析 报 告 等 ;公共 服务 的 
大 数据 应 用 如 搜索 引擎 公司 提供 的 诸如 流感 趋势 预测 .春运 客流 分 析 、 紧 急 情况 响应 ` 城 
市 规划 ,路政 建设 .运营 模式 等 方面 得 到 广泛 应 用 。 大 数据 应 用 基本 呈现 互联 网 领先 并 引 
领 大 数据 应 用 ,其 他 行业 的 大 数据 应 用 仍 在 探索 之 中 。 

下 面 通过 一 个 具体 的 大 数据 应 用 案例 来 说 明 大 数据 在 不 同 的 领域 ,不 同 的 应 用 需求 
下 ,如 何 开展 大 数据 应 用 。 阿 里 巴巴 金融 是 互联 网 金融 领域 的 一 个 典型 大 数据 应 用 案例 ， 
通过 掌握 的 企业 交易 数据 ,借助 大 数据 技术 自动 分 析 判 定 是 否 给 予 企业 贷款 ,全 程 不 会 出 
现 人 工 干 预 。 阿 里 巴巴 金融 主要 有 两 种 模式 ,“ 阿 里 小 贷 ”( 为 阿里 巴巴 上 的 企业 客户 提供 
信用 贷款 ) 和 * 淘 宝 小 贷 ”( 为 淘宝 和 天 猫 客 户 提供 的 订单 贷款 和 信用 贷款 ) 分 别针 对 不 同 
的 客户 类 型 ,采取 不 同 的 贷款 方式 。 这 两 种 贷款 方式 ,都 不 需要 借款 人 提供 抵押 品 或 第 三 
方 担保 , 仅 赁 自己 的 信誉 就 能 取得 贷款 ,这 两 种 贷款 方式 更 注重 的 是 数据 而 不 是 担保 和 抵 
押 。 截 至 目前 ,阿里 巴巴 已 经 放贷 三 百 多 亿 元 ,坏账 率 约 0. 3% 左 右 , 大 幅度 低 于 商业 
银行 。 

从 图 2. 13 可 以 看 出 ,阿里 巴巴 小 贷 建立 了 多 层次 微 贷 风险 预警 和 管理 体系 ,通过 大 
数据 技术 实现 了 贷 前 、 贷 中 和 贷 后 的 一 体 化 数据 采集 和 分 析 , 有 效 规避 和 防范 贷款 风险 。 
如 在 贷 前 根据 企业 (个 人 ) 电 子 商 务 经 营 数据 和 第 三 方 认 证 数据 ,辨析 企业 经 营 状 况 , 反 映 
企业 (个 人 ) 偿 债 能 力 ; 贷 中 通过 支付 宝 及 阿里 云 平台 实时 监控 商户 (个 人 ) 的 交易 状况 和 
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现金 流 ,为 风险 预警 提供 信息 输入 ; 贷 后 通过 大 数据 技术 监控 企业 (个 人 ) 经 营 动态 和 行 
为 ,可 能 影响 正常 履约 的 行为 将 被 预警 ,从 而 提高 客户 违约 成 本 ,有 效 控制 贷款 风险 。 阿 
里 巴巴 之 所 以 能 成 功 地 介入 到 金融 服务 领域 ,核心 优势 就 是 拥有 庞大 的 客户 资源 和 数据 ， 
并 能 基于 云 计算 平台 通过 大 数据 技术 对 客户 信息 的 充分 分 析 、 挖 掘 ,实现 对 客户 信用 水 平 
和 还 款 能 力 的 准确 、 实 时 的 把 控 。 
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图 2.13 阿里 巴巴 金融 创新 大 数据 应 用 模式 


通过 深入 分 析 互 联网 企业 大 数据 应 用 的 成 功 案 例 , 可 以 总 结 出 大 数据 应 用 所 必 备 的 
以 下 几 个 条 件 。 

(1) 丰富 的 数据 和 强大 的 平台 是 基础 条 件 。 如 Google 的 数据 资源 极为 丰富 ,拥有 全 
球 网 页 搜索 索引 库 ,掌握 几 十 亿 用 户 的 搜索 行为 数据 ,其 中 包括 用 户 行为 数据 ,网 页 数据 、 
系统 日 志 数 据 、 用 户 交易 数据 等 ,映射 出 各 种 大 数据 的 创新 应 用 ,如 定向 广告 .个 性 推荐 、 
机 器 翻译 等 较 成 熟 的 大 数据 应 用 。 

(2) 应 用 总 不 是 飞跃 性 的 ,要 靠 获取 长 期 的 效益 积累 。 如 搜索 引擎 .广告 .推荐 等 成 
熟 应 用 都 是 在 日 积 月 累 的 微小 进步 中 逐渐 形成 的 ,其 中 搜索 引擎 是 最 早 的 互联 网 大 数据 
应 用 ,如 Google、 百 度 等 提供 搜索 引擎 。 

G) 积累 效益 的 获取 ,要 靠 不 断 的 技术 和 迭代。 互联 网 企业 一 直 奉 行 敏捷 开发 ,快速 从 
代 的 软件 开发 理念 ,可 以 在 很 短 的 周期 内 完成 一 个 “规划 、 开 发 测试, 发布” 的 迭代 周期 。 
这 种 长 期 持续 “小 步 快 跑 ” 的 研发 方式 ,支撑 大 数据 应 用 效果 的 持续 提升 ,并 建立 了 技术 的 

(4) 快速 迭代 的 保障 要 通过 技术 和 应 用 一 体 化 组 织 。 互 联网 企业 之 所 以 能 够 保持 高 
效率 的 持续 技术 演进 ,其 研发 和 应 用 一 体 化 的 组 织 方式 是 很 重要 的 一 个 因素 ,从 而 形成 一 
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套 高 效 运转 的 研发 产业 化 体系 ,并 能 够 启发 新 的 创意 ,加 快 再 创新 步伐 。 
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传统 的 数据 可 视 化 只 是 将 数据 加 以 组 合 ,通过 不 同 的 展现 方式 提供 给 用 户 , 用 于 发 现 
数据 之 间 的 关联 信息 。 在 大 数据 背景 下 ,传统 的 数据 可 视 化 分 析 模型 、 理 论 已 无 法 满足 需 
求 , 必 须 针 对 大 数据 的 海量 性 、 实 时 人 性、 价值 性 等 特点 重新 构建 一 套 有 效 的 可 视 化 分 析 理 
论 及 分 析 模 型 。 因 此 ,大 数据 可 视 化 所 面临 最 大 的 挑战 就 是 如 何 提出 新 的 可 视 化 方法 能 
够 帮助 人 们 分 析 大 规模 、 高 维度 、 多 来 源 、 动 态 演化 的 数据 ,并 辅助 做 出 实时 的 决策 。 目 
前 ,大 数据 可 视 化 应 用 也 更 加 广泛 并 衍生 了 许多 新 的 研究 方向 ,主要 研究 方向 有 数据 可 视 
化 、 科 学 计算 可 视 化 、 信 息 可 视 化 、 知 识 可 视 化 等 。 


1. 数据 可 视 化 


数据 可 视 化 主要 面向 的 是 大 型 数据 库 中 的 数据 ,借助 于 图 形 化 手段 ,如 折线 图 \、 柱 状 
图 、 散 点 图 、 饼 状 图 、 地 图 、 网 络 图 、 雷 达 图 、 和 矩阵 图 等 直观 地 表达 数据 与 数据 之 间 的 关系 ， 
获得 数据 内 在 的 信息 ,从 而 清晰 有 效 地 传达 与 沟通 信息 。 面 对 大 数据 的 海量 、 异 构 ,多 样 
性 等 特征 的 数据 集 ,如 商业 分 析 、 人 口 状 况 分 布 . 用 户 行为 数据 等 ,数据 可 视 化 可 能 要 经 历 
包括 数据 采集 ,数据 分 析 、 数 据 治理 ,数据 管理 ,数据 挖 扎 在 内 的 一 系列 复杂 数据 处 理 , 然 
后 根据 业务 需求 的 场景 来 确定 所 采用 的 图 形 化 方式 ,例如 采用 立体 的 还 是 二 维 的 ,静态 的 
还 是 动态 的 ,实时 的 还 是 交互 式 的 图 形 化 表现 形式 等 。 

数据 可 视 化 也 是 根据 需求 以 及 数据 维度 或 属性 进行 筛选 ,根据 目的 和 用 户 群 选用 
不 同 的 表现 方式 。 即 使 是 相同 的 数据 ,也 可 以 可 视 化 成 多 种 看 起 来 截然 不 同 的 形式 ， 
比如 有 的 可 视 化 目标 是 为 了 观测 .跟踪 数据 ,有 的 是 为 了 分 析 数 据 , 有 的 是 为 了 发 现 数 
据 之 间 的 潜在 关联 ,有 的 是 为 了 帮助 用 户 快速 理解 数据 含义 或 变化 等 。 因 此 ,如 何 对 
海量 复杂 的 数据 集 进 行 直观 .生动 .可 交互 的 解释 ,其 本 身 就 是 一 门 艺术 。 图 2. 14 列 
举 了 一 些 常用 的 数据 可 视 化 的 图 形 表 现形 式 , 如 折线 图 、 柱 状 图 、 散 点 图 、K 线 图 、 饼 
图 、 雷 达 图 .和 弦 图 力 导 向 布局 图 .地 图 、 仪 表盘 漏斗 图 等 ,读者 可 根据 自己 的 实际 需 
求 进行 参考 。 


2. 信息 可 视 化 


信息 可 视 化 主要 面向 的 是 大 规模 非 数 值 型 信息 资源 , 即 本 身 没 有 几何 属性 和 明显 空 
间 特 征 的 抽象 的 、 非 结构 化 的 数据 集合 ,如 文本 信息 、 语 音信 息 、 视 频 信 息 等 ,利用 图 形 图 
像 方 面 的 技术 与 方法 ,将 抽象 数据 用 可 视 的 形式 表示 出 来 ,帮助 人 们 理解 和 分 析 数 据 , 从 
而 发 现 数据 中 隐藏 的 特征 、 关 系 和 模式 等 。 信 息 可 视 化 的 关键 就 是 如 何 将 数据 用 有 意义 
的 图 形 表示 出 来 ,其 主要 过 程 包括 对 数据 进行 描述 ,再 利用 可 视 化 方法 对 数据 进行 表示 ， 
从 而 挖掘 数据 信息 内 在 的 有 用 信息 ,然后 利用 特征 提取 、 特 征 优化 ,模式 识别 ,数据 挖掘 等 
手段 对 信息 进行 处 理 , 最 终 增强 人 们 对 抽象 信息 的 认识 或 辅助 人 们 得 出 某 种 结论 性 观点 。 
图 2.15 列举 了 几 种 信息 可 视 化 的 图 形 表现 形式 ,如 图 2. 15(a) 是 对 美国 人 口 分 布 情况 的 
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图 2.14 常用 的 数据 可 视 化 的 图 形 表现 形式 
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信息 可 视 化 ;图 2. 15(b) 是 对 一 至 四 线 城市 网 民 互 联网 价值 的 信息 可 视 化 ;图 2. 15(c) 是 
对 互联 网 60s 会 发 生 什 么 的 信息 可 视 化 ;图 2. 15(d) 是 对 全 世界 手机 使 用 情况 的 信息 可 
视 化 。 
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(c) (d) 
图 2.15 几 种 信息 可 视 化 的 图 形 表现 形式 


3. 科学 计算 可 视 化 


科学 计算 可 视 化 主要 是 面向 科学 及 工程 测量 的 .具有 几何 性 质 或 结构 特征 的 数据 , 利 
用 计算 机 图 形 学 .图像 处 理 等 技术 ,将 科学 数据 中 所 蕴含 的 现象 ,规律 通过 三 维 ,动态 模拟 
等 方式 表现 出 来 ,从 而 促进 人 们 对 数据 的 洞察 和 理解 。 目 前 ,科学 计算 可 视 化 的 主要 应 用 
领域 有 分 子 建 模 . 计 算 流 体力 学 空间 探索 、 医 学 图 像 . 地 理 信息 .气象 .石油 .生物 信息 ,有 
限 元 分 析 等 ,通过 对 科学 数据 进行 解释 和 处 理 来 使 科学 工作 者 寻找 其 中 的 模式 、 特 点 、 关 
系 等 。 科 学 计算 可 视 化 的 研究 重点 在 于 ,如 何 设计 和 选择 合理 的 显示 方式 ,使 用 户 可 以 了 
解 海量 的 多 维 数据 及 数据 之 间 的 相互 关系 等 ,其 主要 过 程 包括 数据 变换 、 映 射 .绘制 /显示 
等 步 又。 其 中 ,变换 是 对 数据 进行 预 处 理 , 如 对 庞大 的 数据 量 只 提取 与 可 视 目 标 相关 的 信 
息 以 减少 数据 量 .通过 几何 变换 对 点 的 坐标 进行 缩放 、 通 过 拓扑 变换 调整 网 格 点 的 连接 关 
系 等 ;映射 是 整个 科学 计算 可 视 化 的 核心 , 即 设计 合理 的 可 视 化 方案 和 算法 ,如 二 维 标量 


第 2 章 大 数据 关键 技术 Co 


场 等 值 线 抽取 算法 .断层 间 表 面 重 构 算 法 、 等 值 面 生成 和 绘制 算法 、 体 绘制 算法 等 ;绘制 / 
显示 是 科学 技术 可 视 化 的 最 后 一 个 步骤 ,主要 是 将 上 述 可 供 绘制 的 元 素 转换 成 图 像 ,绘制 
在 屏幕 或 其 他 介质 上 。 图 2. 16 列举 了 几 种 科学 计算 可 视 化 的 图 形 表 现形 式 , 如 图 2. 16(a) 
是 对 气象 预报 实时 数据 的 科学 计算 可 视 化 ;图 2. 16(b) 是 对 电信 和 覆盖 区 域 数据 的 科学 计 
算 可 视 化 ;图 2. 16(c) 是 对 天 体 物 理 的 数据 进行 科学 计算 可 视 化 ;图 2. 16(d) 是 对 化 学 分 


计算 可 视 化 。 


(a) 气象 预报 实时 图 (b) 电信 覆盖 区 域 图 


(c) 天 体 物理 图 (d) 化 学 分 子 图 
图 2.16 几 种 科学 计算 可 视 化 的 图 形 表现 形式 


数据 可 视 化 与 信息 可 视 化 的 区 别 在 于 数据 是 否 为 非 数 值 型 。 目 前 ,对 低 维 、 小 规模 的 
数值 型 数据 的 可 视 化 方法 与 技术 比较 成 熟 ,而 面 对 大 规模 ,海量 的 高 维 数据 时 ,以 前 的 数 
据 可 视 化 方法 就 无 法 满足 要 求 , 其 处 理 方法 越 来 越 接 近 信 息 可 视 化 。 因 此 ,对 于 大 数据 而 
言 ,数据 可 视 化 和 信息 可 视 化 并 没有 明确 的 界限 。 科 学 计算 可 视 化 与 数据 可 视 化 的 主要 
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区 别 在 于 被 可 视 化 的 对 象 是 物理 空间 数据 还 是 非 物理 空间 数据 。 实 际 上 ,可 以 认为 科学 
计算 可 视 化 的 数据 只 是 数据 可 视 化 的 一 部 分 而 已 。 

总 之 ,大 数据 可 视 化 是 一 门 以 信息 科学 ,计算机 科学 、 地 图 学 、 认 知 科学 ,信息 传播 学 、 
人 工 智 能 等 学 科 为 基础 ,并 通过 计算 机 技术 、 数 字 技术 .多 媒体 技术 动态 直观、 形象 地 表 
现 、 解 释 \ 传 递 信息 并 提示 其 规律 的 一 门 综合 性 的 学 科 。 目 前 ,对 大 数据 可 视 化 仍然 还 处 
在 初始 阶段 ,特别 是 对 于 动态 多 维度 大 数据 流 的 可 视 化 技术 还 非常 匮乏 ,需要 扩展 现 有 的 
可 视 化 方法 或 研究 新 可 视 化 方法 来 应 对 复杂 的 信息 流 数 据 ,同时 也 需要 设计 创新 的 交互 
方式 来 对 大 数据 进行 可 视 化 交互 和 辅助 决策 。 


基于 Hp 的 大 数据 BEES 
生态 系统 


狭义 的 大 数据 生态 系统 主要 涵盖 数据 存储 与 管理 .数据 安全 数据 分 析 、 数 据 呈 现 、 数 
据 应 用 等 环节 ;而 广义 的 大 数据 生态 系统 则 包括 数据 的 整个 生命 周期 , 即 从 数据 产生 、 采 
集 、 存 储 、 管 理 . 分 析 , 直 至 最 终 的 数据 展现 与 应 用 的 过 程 。Hadoo 作为 新 一 代 的 架构 和 技 
术 , 具 有 可 扩展 ,经 济 、 可 靠 、 高 效 等 特性 ,而 且 有 利于 并 行 分 布 式 处 理 “ 大 数据 ”, 现 已 成 为 
大 数据 时 代数 据 处 理 的 首选 。 目 前 ,基于 Hadoo 的 大 数据 应 用 已 经 在 互联 网 领域 取得 了 
非常 突出 的 成 绩 ,如 IM, HP, Intel, BIC. Oracle 均 基于 Hadoop 推出 大 数据 商业 解决 方案 ,并 且 
Hedoop 有 向 电信 .电子 商务 、 银 行 等 领域 拓展 的 趋势 。 因 此 ,Hadoo 已 成 为 企业 大 数据 应 用 
的 事实 标准 。 本 章 内 容 将 以 Hadoop 为 基础 ,介绍 基于 Hadoop 的 大 数据 生态 系统 的 发 展 、 架 
构 以 及 构建 过 程 等 内 容 。 

注 : 很 多 读者 一 提 到 大 数据 就 会 想到 Hadoop, 认 为 大 数据 就 是 Hadoop。 其 实 ， 
Hadoop 只 是 一 种 分 布 式 系统 基础 架构 ,提供 了 分 布 式 存储 系统 HDFS、 分 布 式 计 算 
MapReduce 等 技术 ,从 而 满足 了 大 数据 应 用 的 某 方 面 技术 需求 。 因 此 ,Hadoop 只 是 大 数 
据 的 一 部 分 ,为 大 数据 研究 打开 了 思路 ,但 绝 不 代表 大 数据 的 全 部 。 


3.1 Hadoop 概述 


Hadoop 是 以 分 布 式 文件 系统 (Hadoop Distributed File System, HDFS) 和 
MapReduce( Hadoop 2. 0 还 包括 YARN) 为 核心 ,为 用 户 提 供 了 一 个 能 够 对 大 量 数据 进 
行 数据 挖掘 、 数 据 分 析 、 数 据 存 储 、 数 据 管理 ,维护 的 可 靠 、 高 效 、 可 伸缩 的 分 布 式 基础 
架构 。 


311 Hadoop 发 展 历程 


Hadoop 起 源 于 Apache 的 Lucene Mi H (Lucene 是 一 个 用 Java 编写 的 文件 索引 引擎 
的 API, 网 址 http: //lucene. apache. org) 和 Nutch 项 目 (Nutch 是 由 Doug Cutting 通过 
Luncene 引擎 所 开发 的 一 个 开源 Web 搜索 引擎 ,网 址 http://nutch. apache. org) 。 当 时 
Nutch 项 目 在 构建 大 规模 搜索 引擎 的 时 候 遇 到 了 性 能 瓶颈 , 即 无 法 解决 数 十 亿 网 页 
的 存储 和 索引 问题 。 于 是 Doug Cutting 借鉴 了 Google 在 2003 年 发 表 的 GFS 论文 The 
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Google File System ll 2004 年 发 表 的 MapReduce i£ XX Ma pReduce: Sim pli fied Data 
Processing on Large Cluster? H & 8 , SCR Y Nutch 版 的 NDFS 和 MapReduce , A ifii fff 
HT Nutch 项 目的 性 能 瓶颈 。 其 中 ,第 一 篇 论文 解决 了 Nutch 项 目 遇 到 的 网 页 抓 取 和 索 
引 过 程 中 产生 的 超大 文件 存储 问题 ;第 二 篇 论文 解决 了 处 理 海量 网 页 数据 的 索引 问题 。 
但 Nutch 项 目 侧重 搜索 ,而 NDFS 和 MapReduce 则 更 像 是 分 布 式 基础 架构 , 故 从 该 项 目 
Nutch 0. 8. 0 版 本 之 后 ,开发 人 员 就 把 Nutch 项 目 中 的 分 布 式 文件 系统 NDFS 以 及 实现 
MapReduce 算法 的 代码 独立 出 来 ,形成 了 一 个 新 的 开源 项 目 ,并 命名 为 Hadoop。 图 3. 1 
列 出 了 Hadoop 发 展 过 程 中 的 一 些 重要 事件 。 

从 图 3. 1 可 以 看 出 ,经 过 业界 和 学 术 界 的 不 断 完善 发 展 ,Hadoop 已 在 实际 的 大 数据 
处 理 和 分 析 任务 中 担当 着 重要 角色 ,并 且 从 2011 年 Hadoop 1.0.0 发 布 后 ,衍生 出 了 多 
种 类 型 的 发 行 版 ,如 基于 社区 的 Apache Hadoop 版 本 、 基 于 开源 的 Apache Hadoop 进行 
改造 的 商业 解决 方案 (其 中 包括 一 系列 定制 的 管理 工具 和 软件 )、 基 于 API 级 别 和 社区 
Hadoop 发 行 版 保持 兼容 的 闭 源 软件 等 。 下 面 重 点 介绍 基于 社区 的 Apache Hadoop 版 本 
的 发 展 和 基于 开源 的 Apache Hadoop 进行 改造 的 商业 解决 方案 。 


1. 基于 社区 的 Hadoop 版 本 演化 


基于 社区 的 Apache Hadoop 版 本 已 巾 最初 的 Hadoop 0. 14. 1 版 本 (2007 年 9 月 4 日 
发 行 版 ) 进 化 到 如 今 的 Hadoop 2. 6.0 版 本 (2014 年 11 月 8 日 发 行 版 )。 图 3. 2 给 出 了 
Hadoop 从 最 初 的 0. 14 发 行 版 的 演化 过 程 。 

从 图 3.2 中 可 以 看 出 ,从 Hadoop 0. 20 版 本 发 布 之 后 ,主要 功能 一 直 在 该 分 支 上 进 
行 开发 ,主干 分 支 并 没有 合并 这 个 分 支 。 因 此 ,Hadoop 0. 20 分 支 成 为 主流 。Hadoop 
0. 20. 2 版 本 发 布 后 ,有 几 个 重要 特性 继续 在 0. 20. 2 版 本 上 研发 ,并 衍生 出 两 个 主要 特 
TE: Append( 支 持 文件 追加 功能 ,让 用 户 使 用 HBase 的 时 候 避 免 数据 丢失 ) 和 Security 
(Hadoop 安全 机 制 ) ,而 后 续 的 0. 20. 205 版 本 综合 了 这 两 个 特性 ,并 重 命名 为 Hadoop 
1.0.0 版 本 。Hadoop 0. 21 版 本 将 整个 Hadoop 项 目 分 割 成 三 个 独立 的 模块 ,分 别 是 
Common, HDFS 和 MapReduce, 并 包含 Append, Raid, Symlink 和 Namenode HA 特性 ， 
但 不 包括 Security 特性 ,并 在 该 版 本 的 基础 上 修复 了 一 些 Bug 并 进行 了 部 分 优化 ,衍生 
出 了 Hadoop 0. 22 版 本 。Hadoop 0. 20. 1 主要 应 用 于 商业 领域 ,该 版 本 有 一 些 独特 的 特 
性 ,将 在 后 面 的 商业 版 本 演化 中 介绍 。 表 3.1 给 出 了 Hadoop 各 个 版 本 的 特性 及 稳定 性 。 

从 Hadoop 2. 0 版 本 以 后 , 除 以 上 特性 外 ,还 增加 了 HDFS Federation 和 YARN 特 
性 。 其 中 ,HDFS Federation 支持 多 个 Namenode 分 管 没 目录 ,实现 访问 隔离 和 横向 扩 
展 ;YARN 是 全 新 的 资源 管理 框架 ,将 JobTracker 资源 管理 (由 ResourceManager 负责 ) 
和 作业 控制 (由 ApplicationMaster 负责 ) 功 能 分 开 。 如 果 读 者 想 了 解 Hadoop 各 版 本 的 
具体 说 明 ,请 查看 Apache Hadoop 官方 网 站 (网 址 http://hadoop. apache. org/releases. 
html) 。 
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X 3.1 Hadoop 各 版 本 的 特性 及 稳定 性 


版 本 号 M E 是 否 稳定 
Append Raid Symlink Security Namenode HA 
0.20.2 x x x X x 是 
0. 20. 203 x x x -J x 是 
0. 20. 205/1.0 v x x Í x 是 
0. 21 ~ v v x v 8 
0.22 v v v v V "8 
0.23.0 v v v v x "8 
1. X v x x v x 是 
2.X v v v v ÍV B 


ik: Append: 支持 文件 追加 功能 ,让 用 户 使 用 HBase 的 时 候 避 免 数据 丢失 。Raid: 
保证 数据 可 靠 , 引 入 检验 码 校 验 数据 块 数目 。Symlink: 支持 HDFS 文件 链接 。Security: 
Hadoop 安全 机 制 。Namenode HA; 为 了 避免 NameNode 单 点 故障 情况 ,HA 集群 有 两 


台 NameNode。 
2. 基于 开源 的 Hadoop 商业 版 本 演化 


基于 社区 的 Hadoop 发 行 版 缺少 来 自 商 业 供应 商 的 技术 支持 以 及 针对 自身 业务 需求 
完整 的 解决 方案 。 因 此 ,除了 社区 的 Apache Hadoop 之 外 ,互联 网 企业 如 Cloudera、 
Hortonworks、.EMC、IBM、Intel、Amazon、 微 软 公 司 等 也 分 别 发 布 了 自己 的 发 行 版 本 。 
表 3.2 列举 了 一 些 Hadoop 的 商业 发 行 版 本 及 不 同 版 本 的 特点 。 


表 3.2 Hadoop 商业 版 本 的 特性 


发 行 版 本 发 行 方 特 点 

ASS Anon 为 大 数据 应 用 提供 了 存储 、 计 算 、 分 析 和 共享 
等 多 方面 的 支持 

CDH Cloudera 完全 开源 , 比 Apache Hadoop 在 兼容 性 .安全 
性 ,稳定 性 上 有 增强 ,并 具有 管理 监控 平台 

Hortonworks Data Platform oe 提供 数据 集成 服务 ,元 数据 服务 .管理 和 监控 

(HDP) ned 服务 等 

MapR MapR Technologies s uus t \ 镜 像 .通过 NFS 访问 数 

与 Greenplum 的 兼容 性 好 ,适合 使 用 

EUMD Lad Greenplum 数据 库 的 用 户 

InfoSphere BigInsights IBM 提供 了 发 现 数据 并 加 以 解释 的 能 力 

Apache Hadoop ne AER na RERVIKEEBIHERIH NAE 

Windows Azure HDlInsight Microsoft 主要 提供 覆盖 整个 产业 链 的 完整 解决 方案 
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312 Hadoop 特点 


Hadoop 是 Apache 基金 会 下 的 一 个 能 够 对 大 量 数 据 进 行 分 布 式 处 理 的 软件 框架 ,该 
框架 最 核心 的 设计 是 分 布 式 文件 系统 (Hadoop Distributed File System. HDFS) 和 
MapReduce, HDFS 有 着 高 容错 性 的 特点 ,并 且 设计 用 来 部 署 在 低廉 的 硬件 上 ,另外 
HDFS 能 提供 高 吞吐 量 的 数据 访问 ,适用 于 大 规模 数据 集 的 应 用 程序 。MapReduce 是 一 
个 编程 模型 ,通过 Map 可 将 应 用 程序 的 工作 分 解 成 很 多 小 的 工作 小 块 , 再 通过 Reduce 将 
所 有 这 些 中 间 的 结果 合并 起 来 ,主要 用 于 处 理 和 生成 大 规模 数据 集 的 相关 实现 ,在 处 理 
TB 级 别 以 上 巨 量 的 数据 业务 上 有 着 明显 优势 。 因 此 ,Hadoop 是 以 一 种 可 靠 ,高效 .可 伸 
缩 的 方式 进行 大 规模 数据 处 理 的 ,具体 体现 在 以 下 几 个 方面 。 


1. 高 可 靠 性 


高 可 靠 性 体现 在 Hadoop 能 自动 地 维护 多 个 工作 数据 副本 ,并 且 在 任务 失败 后 能 自 
动 地 重新 部 署 计算 任务 。 


2. 高 效 性 


高 效 性 体现 在 Hadoop 以 并 行 的 方式 处 理 大 规模 数据 ,而 且 能 够 在 节点 之 间 动 态 地 
移动 数据 ,并 保证 各 个 节点 的 动态 平衡 ,从 而 加 快 了 处 理 速度 。 


3. 高 可 扩展 性 


高 可 扩展 性 体现 在 Hadoop 能 够 通过 添加 节点 获得 集群 线性 性 能 和 容量 的 提升 ,可 
以 方便 地 扩展 到 数 以 千 计 的 节点 。 


4. 低 成 本 


低 成 本 体现 在 Hadoop 集群 可 以 由 廉价 的 服务 器 组 成 ,因此 它 的 成 本 比较 低 ,而 且 这 
些 集 簇 可 以 方便 地 扩展 到 数 以 千 计 的 节点 。 


5. 支持 多 种 编程 语言 


Hadoop 采用 Java 语言 编写 ,因而 Hadoop 支持 对 Java 语言 编写 作业 ,同时 Hadoop 
也 支持 如 C/C++ 等 其 他 语言 编写 MapReduce 作业 和 非 Java 的 第 三 方 库 的 使 用 。 


313 Hadoop 核心 思想 


虽然 Hadoop 仍 在 不 断 完善 ,但 其 本 质 上 还 是 基于 Google 的 集群 系统 的 开源 实现 ， 
基本 上 还 是 遵循 着 Google 发 表 的 一 系列 论文 来 完成 实现 ,如 2003 发 表 的 论文 The 
Google File System" ,该 论文 描述 了 如 何 构造 一 个 分 布 式 的 文件 系统 ,能 够 存储 海量 数 
据 , 并 且 数 据 容量 能 够 达到 整个 互联 网 所 有 数据 的 容量 ; 2004 年 发 表 的 论文 
MapReduce:Simplified Data Processing on Large Cluster !*? ,该 论文 描述 了 如 何在 一 


第 3 章 基于 Hadoop 的 大 数据 生态 系统 st 


个 分 布 式 环境 下 进行 海量 网 页 的 索引 问题 ,通过 分 布 式 编程 实现 大 规模 的 数据 处 理 , 同 时 
不 陷入 对 于 系统 编程 的 细节 中 ;2005 年 发 表 的 Interpreting the data : Parallel analysis 
with Sawzall ,该 论文 引入 了 一 个 全 新 的 语言 Sawzall, 并 且 提 供 了 一 组 强力 的 接口 ,这 些 
接口 属于 常用 的 数据 处 理 和 数据 合并 聚合 器 ;2006 年 发 表 的 论文 A Distributed Storage 
System for Structured Data *! 和 The Chubby Lock Service for Loosely-Coupled 
Distributed Systems" ,前 一 篇 论文 描述 了 如 何在 分 布 式 文件 系统 的 基础 之 上 建立 用 以 
存储 结构 化 数据 的 分 布 式 数据 库 系统 ,后 一 篇 论文 提供 了 基于 Paxos 实现 的 一 个 分 布 式 
的 锁 服 务 ,以 文件 系统 的 形式 提供 编程 接口 。 表 3. 3 总 结 了 Google 发 表 的 几 篇 论文 的 对 
应 关系 。 


33.3 Google 与 Hadoop 的 对 应 关系 
Google Hadoop 功 能 论 x 
GFS HDFS 分 布 式 文件 系统 | The Google File System 


MapReduce MapReduce | 分 布 式 处 理 模型 MapReduce: Simplified Data Processing on Large 


Cluster 
BigTable HBase 分 布 式 数据 库 A Distributed Storage System for Structured Data 
Swai Pig, Hive 高 级 数据 流 语言 Puterpreting the data: Parallel analysis 
with Sawszall 
Chubby ZooKeeper 解决 一 致 性 The Chubby Lock Service for Loosely-Coupled 


Distributed Systems 


注 : 如 果 读 者 想 深 入 了 解 Hadoop 的 核心 思想 ,请 认真 阅读 表 3.3 所 给 出 的 GFS, 
MapReduce、BigTable、Sawzal 和 Chubby 这 几 篇 论文 ,相信 会 有 很 大 帮助 。 


3.2 Hadoop 家 族 成 员 


Hadoop 本 身 包括 Hadoop Common, HDFS 和 MapReduce ( Hadoop 2. 0 还 包括 
Hadoop YARN). Bfizf Hadoop 自身 不 断 地 完善 发 展 , 产 生 了 与 Hadoop 密切 相关 的 数 
据 服务 类 子 项 目 ( 如 HBase, Hive, Pig, HCatalog, Sqoop, Flume, Chukwa 等 ) .运行 维护 
类 子 项 目 (如 Ambari,Oozie, ZooKeeper 等 ) 和 其 他 相关 类 子 项 目 (如 Avro, Mahout 等 ) 。 

(1) Hadoop Common( Hadoop 公共 服务 模块 ) 是 Hadoop 体系 最 底层 的 一 个 模块 ， 
为 Hadoop 各 子 项 目 提 供 了 开发 所 需 的 API。 在 Hadoop 0. 20 及 以 前 的 版 本 中 , Hadoop 
Common 包含 HDFS, MapReduce 和 其 他 项 目 公 共 内 容 , 从 Hadoop 0. 21 开始 HDFS 和 
MapReduce 被 分 离 为 独立 的 子 项 目 , 其 余 内 容 为 Hadoop Common, 如 系统 配置 工具 
Configuration 远程 过 程 调用 RPC 序列 化 机 制 等 。 

(2) HDFS( Hadoop Distributed File System ,分 布 式 文件 系统 ) 是 一 个 类 似 于 Google 
GFS 的 开源 的 分 布 式 文件 系统 ,是 Hadoop 体系 中 数据 存储 管理 的 基础 。 它 提供 了 一 个 
可 扩展 .高 可 靠 ,高 可 用 的 大 规模 数据 分 布 式 存储 管理 系统 ,基于 物理 上 分 布 在 各 个 数据 
存储 节点 的 本 地 Linux 系统 的 文件 系统 ,为 上 层 应 用 程序 提供 了 一 个 逻辑 上 成 为 整体 的 
大 规模 数据 存储 文件 系统 。 
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(3) MapReduce( 并 行 计 算 框架 ) 是 一 种 计算 模型 ,用 以 进行 大 数据 量 的 计算 。 其 中 
Map 对 数据 集 上 的 独立 元 素 进行 指定 的 操作 ,生成 键 - 值 对 形式 的 中 间 结 果 ;Reduce 则 对 
中 间 结 果 中 相同 “ 键 ”* 的 所 有 “ 值 ” 进 行规 约 , 以 得 到 最 终结 果 。MapReduce 这 样 的 功能 划 
分 ,非常 适合 在 大 量 计算 机 组 成 的 分 布 式 并 行 环境 里 进行 数据 处 理 。 

(4) YARN( Yet Another Resource Negotiator, 资 源 管理 框架 ) 是 新 一 代 Hadoop Vt 
源 管 理 器 ,用 户 可 以 运行 和 管理 同一 个 物理 集群 机 上 的 多 种 作业 ,例如 MapReduce 批 处 
理 和 图 形 处 理 作 业 。 它 可 以 对 集群 中 的 各 类 资源 进行 抽象 ,并 按照 一 定 的 策略 将 资源 分 
配给 应 用 程序 或 服务 。 

(5) HBase( 分 布 式 列 存储 数据 库 ) 是 一 个 针对 结构 化 数据 的 可 伸缩 、 高 可 靠 、 高 性 
能 ,分 布 式 和 面向 列 的 动态 模式 数据 库 。HBase 主要 用 于 对 大 规模 数据 的 随机 、 实 时 读 
写 访问 ,并 且 HBase 中 保存 的 数据 可 以 使 用 MapReduce 来 处 理 , 它 将 数据 存储 和 并 行 计 
算 完美 地 结合 在 一 起 。 

(6) Hive( 数 据 仓库 ) 是 基于 Hadoop 的 一 个 数据 仓库 工具 ,可 以 将 结构 化 的 数据 文 
件 映射 为 一 张 数据 库 表 , 通 过 类 SQL 语句 快速 实现 简单 的 MapReduce 统计 ,不 必 开 发 专 
门 的 MapReduce 应 用 ， eane r ty 

(7) Pig( 一 种 强大 的 脚本 语言 ) 是 一 个 基于 Hadoop 的 大 规模 数据 分 析 工 具 , 它 提供 
的 SQL-LIKE 语言 叫 Pig Latin ,该 语 a SQL 的 数据 分 析 请 求 转换 为 一 
系列 经 过 优化 处 理 的 MapReduce 运算 。 

(8) HCatalog 是 基于 Hadoop 的 数据 表 和 存储 管理 服务 ,提供 了 更 好 的 数据 存储 抽 
象 和 元 数据 服务 。 

(9) Sqoop( 数 据 库 同步 工具 ) 是 一 个 用 来 将 Hadoop 和 关系 型 数据 库 中 的 数据 相互 
转移 的 工具 ,可 以 将 一 个 关系 型 数据 库 如 MySQL、Oracle、Postgres 等 中 的 数据 导入 到 
Hadoop 的 HDFS 中 ,也 可 以 将 HDFS 的 数据 导出 到 关系 型 数据 库 中 。 

(10) Flume( 日 志 收集 工具 ) 是 一 个 分 布 的 ,可靠 的 ,高 可 用 的 海量 日 志 聚 合 的 系统 ， 
可 用 于 日 志 数 据 收集 .日志 数据 处 理 日志 数据 传输 。 

(11) Chukwa( 分 布 式 数据 采集 系统 ) 是 一 个 开源 的 用 于 监控 大 型 分 布 式 系统 的 数据 
收集 系统 ,是 构建 在 Hadoop 的 HDFS 和 MapReduce 框架 之 上 的 ,继承 了 Hadoop 的 可 
伸缩 性 和 和 鲁 棒 性 。Chukwa 还 包含 一 个 强大 和 灵活 的 工具 集 , 可 用 于 展示 、 监 控 和 分 析 已 
收集 的 数据 。 

(12) Ambari( 部 署 管理 工具 ) 是 一 种 基于 Web 的 工具 ,支持 Apache Hadoop 集群 的 
供应 ,管理 和 监控 。Ambari 目前 已 支持 大 多 数 Hadoop 组 件 , 包 括 HDFS, MapReduce, 
Hive,Pig, HBase, ZooKeper, Sqoop 和 HCatalog 等 ,也 是 5 个 顶级 Hadoop 管理 工具 
gg 

(13) Oozie( 作 业 流 调度 系统 ) 是 一 个 工作 流 引 擎 服务 器 , 用 于 管理 和 协调 运行 在 
Hadoop 平 台 上 的 HDFS、Map/Reduce 和 Pig 任务 工作 流 ,同时 Oozie 还 是 一 个 Java 
Web 程序 ,运行 在 Java Servlet 容器 中 。 

(14) ZooKeeper( 分 布 式 协调 服务 ) 是 一 个 为 分 布 式 应 用 所 设计 的 分 布 的 .开源 的 协 
调 服务 , 它 主 要 是 用 来 解决 分 布 式 应 用 中 经 常 遇 到 的 一 些 数据 管理 问题 ,简化 分 布 式 应 用 
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协调 及 其 管理 的 难度 ,提供 高 性 能 的 分 布 式 服务 。 

(15) Avro( 数 据 序 列 化 系统 ) 可 以 将 数据 结构 或 者 对 象 转换 成 便于 存储 和 传输 的 格 
式 , 适 合 大 规模 数据 的 存储 与 交换 。Avro 提供 了 丰富 的 数据 结构 类 型 .快速 可 压缩 的 二 
进 制 数据 格式 .存储 持久 性 数据 的 文件 集 、 远 程 调用 RPC 和 简单 动态 语言 集成 等 功能 。 

(16) Mahout( 数 据 挖掘 库 ) 是 基于 Hadoop 的 机 器 学 习 和 数据 挖掘 的 一 个 分 布 式 框 
架 。Mahout 用 MapReduce 实现 了 聚 类 分类、 推荐 引擎 (协同 过 滤 ) 和 频繁 集 挖掘 等 广泛 
使 用 的 数据 挖掘 方法 。 除 了 算法 ,Mahout 还 包含 数据 的 输入 输出 工具 、 与 其 他 存储 系统 
(如 数据 库 .MongoDB 或 Cassandra) 集 成 等 数据 挖掘 支持 架构 。 


3.3 Hadoop 生态 系统 


Hadoop 的 各 类 组 件 功能 各 异 ,共同 提供 了 互补 性 的 服务 ,从 而 形成 了 一 个 海量 数据 
处 理 的 大 数据 生态 系统 。 目 前 Hadoop 生态 系统 根据 Hadoop 发 行 版 本 大 体 可 以 分 为 两 
类 : Hadoop 1. 0 生态 系统 和 Hadoop 2. 0 生态 系统 。 下 面 分 别针 对 Hadoop 1. 0 生态 系 
统 和 Hadoop 2.0 生态 系统 的 组 成 进行 详细 介绍 。 
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Hadoop 1. 0 生态 系统 主要 是 指 Hadoop 1. X 及 其 以 前 的 版 本 (Hadoop 0. 23. X [f 
外 ) ,并 包含 很 多 相关 子 系统 的 完整 的 大 数据 处 理 生态 系统 。 图 3. 3 展示 了 Hadoop 1.0 
生态 系统 的 基础 组 成 。 


Ambari 
人 (安装 部 署 工 具 ) 
Oozie 
(作业 流 调 度 系统 ) 
NER 
次 El Hive Pig Mahout aed 
gE| |% | "- mm F | $E 
2S [7E PETS 
s= 3 M: 
2 
S T MapReduce 
S (分 布 式 计算 框架 ) 
HDFS 
(分 布 式 存储 系统 ) 


图 3.3 Hadoop 1.0 生态 系统 


从 图 3. 3 可 以 看 出 , Hadoop 1. 0 生态 系统 在 包含 分 布 式 文件 系统 HDFS、 分 布 式 计 
算 框架 MapReduce 和 分 布 式 数据 库 HBase 等 基本 子 系统 的 基础 上 ,还 包括 如 分 布 式 协 
调 服务 ZooKeeper ,数据 仓库 Hive、 工 作 流 引擎 Pig 数据 挖掘 库 Mahout 作业 流 调度 系 
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统 Oozie, H WETA Flume\ 数 据 库 同步 工具 Sqoop .安装 部 署 工 具 Ambari 等 子 系统 ， 
从 而 形成 了 Hadoop 1. 0 的 生态 系统 。 
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Hadoop 2. 0 生态 系统 主要 是 指 Hadoop 2. X 及 以 后 版 本 ,并 包含 很 多 相关 子 系统 的 
完整 的 大 数据 处 理 生 态 系统 。 图 3.4 展示 了 Hadoop 2. 0 生态 系统 的 基础 组 成 。 
fo Ambari B 
(安装 部 署 工 具 ) 
í Oozie 
(作业 流 调 度 系统 ) 
& Hive ( Pig ] Hive2 | Pig2 ( Shark | 
& [35 
E giá 
Ë = == MapReduce Tez Spark 
EE $ em EA ( (内 存 计算 ) | s 
NE 
$ 
YARN 
(资源 管理 框架 ) | 
HDFS 
(分 布 式 存储 系统 ) 


图 3.4 Hadoop 2.0 生态 系统 


从 图 3.4 可 以 看 出 , 与 Hadoop 1.0 生态 系统 不 同 之 处 在 于 采用 了 新 的 MapReduce 
框架 ( 即 YARN, 资 源 管理 框架 ) 原 理 ,并 增加 了 如 Spark, Tez 等 子 项 目 。 资 源 管理 在 
Hadoop 生态 系统 中 是 很 重要 的 一 个 模块 , 它 直 接 决定 了 资源 的 组 织 形 式 和 分 配方 式 ,是 
其 他 功能 的 基础 。 因 此 ,Hadoop 2. 0 生态 系统 针对 Hadoop 1. 0 生态 系统 最 大 的 优化 和 
升级 便 是 资源 管理 框架 YARN. 


3.4 Hadoop 集群 架构 


Hadoop 集群 使 用 了 Master/Slave 的 架构 模式 ,其 集群 架构 主要 由 三 部 分 组 成 : 管 
理 节点 (MasterNode) ,数据 节点 (SlaveNode) 和 客户 端 (Client)。 管 理 节点 主要 负责 管理 
集群 节点 ,实现 实体 分 配 、 负 载 均 衡 以 及 数据 节点 的 失败 恢复 ,并 负责 管理 整个 集群 的 
Meta 信息 ,并 提供 Meta 信息 服务 ;数据 节点 主要 负责 处 理 实际 任务 ,如 数据 存储 、 子 任 
务 执行 等 ,并 通过 心跳 机 制 向 管理 节点 定期 汇报 状态 、 工 作 进度 等 信息 ;客户 端 主 要 负责 
缓存 集群 以 及 Meta 信息 ,避免 与 管理 节点 频繁 通信 ,并 且 可 以 读 写 API, 进行 批量 操 
作 等 。 
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Hadoop 1. 0 生态 系统 的 集群 架构 主要 是 以 MapReduce 和 HDFS 为 核心 ,其 管理 节 
点 (MasterNode) 主要 负责 两 个 核心 功能 : 大 数据 存储 (HDFS) 和 数据 并 行 计算 
(MapReduce) 的 管理 ,如 图 3.5 所 示 。 


客户 端 
MapReduce HDFS 
1 
| d Masters 
1 
JobTracker SecondaryNameNode 
1 
i TaskTracker 
Slaves 


DataNode&TaskTracker DataNode& TaskTracker DataNode& TaskTracker 


图 3.5 Hadoop 1.0 生态 系统 的 集群 架构 


从 图 3. 5 可 以 看 出 ,集群 架构 中 的 主要 角色 有 NameNode Job Tracker, DataNode 和 
TaskTracker。 其 中 ,NameNode 负责 监控 和 协调 数据 存储 的 工作 ,JobTracker 则 负责 
MapReduce 的 并 行 计 算 。 而 数据 节点 (SlaveNode) 则 负责 具体 的 工作 以 及 数据 存储 。 每 
个 Slave 运行 一 个 DataNode 和 一 个 TaskTracker 守护 进程 。 这 两 个 守护 进程 负责 与 管 
理 节点 (MasterNode) 通 信 。 其 中 ,TaskTracker 守护 进程 与 JobTracker 相互 作用 ,而 
DataNode 守护 进程 则 与 NameNode 相互 作用 。 

iE. 对 于 较 小 的 Hadoop 集群 (一 般 在 40 个 节点 左右 ), 可 能 存在 一 台 服务 器 会 扮演 多 
个 角色 ,如 将 NameNode 与 JobTracker 部 署 在 同一 台 服 务 器 上 ,但 对 于 大 型 的 Hadoop 集群 
(一 般 在 40 个 节点 以 上 ) ,为 了 保证 集群 的 稳定 性 ,应 将 NameNode, SecondaryNameNode 
和 JobTracker 三 者 分 别 部 署 于 不 同 的 服务 器 上 。 
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Hadoop 2. 0 生态 系统 的 集群 架构 主要 是 以 MapReduce, HDFS 和 YARN 为 核心 ,但 
总 体 上 仍然 是 Master/Slave 结构 ,如 图 3.6 所 示 。 
从 图 3.6 可 以 看 出 ,在 整个 集群 中 ,YARN 为 独立 的 资源 管理 与 分 配 的 通用 系统 , 主 
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要 由 ResourceManager, NodeManager 和 ApplicationMaster 和 Container 等 几 个 组 件 构 
成 。 其 中 ,ResourceManager 充当 Hadoop 1.0 生态 系统 中 的 Master. NodeManager 充当 
Hadoop 1. 0 生态 系统 中 的 Slave. ResourceManager 负责 对 各 个 NodeManager 上 的 资源 
进行 统一 管理 和 调度 。 


ResourceManager 


` Masters 


1 
NodeManager NodeManager 
DataNode AppMstr DataNode Container 


Slaves 


Container Container. Container 


图 3.6 Hadoop 2. 0 生态 系统 的 集群 架构 


3.5 Hadoop 运行 环境 


要 使 得 Hadoop 集群 能 够 充分 发 挥 作用 ,就 需要 相应 的 软件 、 硬 件 及 以 太 网 络 的 支 
撑 。 下 面 将 针对 Hadoop 系统 正常 运作 所 需要 的 硬件 和 软件 环境 以 及 Hadoop 运行 所 需 
的 网 络 环境 进行 介绍 。 
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虽然 Hadoop 的 一 个 优势 是 可 以 运行 在 普通 的 商用 服务 器 上 ,但 并 不 意味 着 Hadoop 
对 硬件 环境 没有 太 高 要 求 ,而 是 要 对 自己 所 需要 处 理 的 问题 有 全 面 的 了 解 ,并 根据 
Hadoop 上 面 运 行 的 应 用 程序 的 特性 来 确定 其 硬件 环境 ,如 对 于 机 器 学 习 、 数 据 挖掘 等 计 
算 密集 型 的 应 用 则 需要 选用 计算 性 能 比较 高 的 商用 服务 器 ;对 于 索引 、 检 索 、 统 计 、 聚 类 等 
1/0 密集 型 的 应 用 则 需要 选用 1/O 性 能 比较 好 的 商用 服务 器 等 。 因 此 ,Hadoop 的 硬件 
环境 依据 需求 不 同 ,其 具体 的 硬件 环境 也 会 有 较 大 差异 。 但 是 ,要 保证 Hadoop 运行 的 硬 
件 环境 满足 最 基本 的 稳定 性 和 性 能 需求 。 

在 图 3. 5 给 出 的 Hadoop 1. 0 生态 系统 的 集群 架构 中 ,Master 节点 Slave 节点 和 客 
户 端 三 者 对 硬件 环境 的 要 求 并 不 完全 相同 。 对 于 Master 节点 而 言 ,一 旦 Master 节点 出 
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现 故 障 将 很 可 能 导致 集群 所 提供 的 服务 中 断 ; 对 于 Slave 节点 而 言 ,Slave 节点 的 崩溃 属 
于 正常 现象 ,并 不 会 对 集群 的 可 用 性 造成 太 大 影响 ;对 于 客户 端 而 言 ,客户 端 节点 的 故障 
将 会 影响 作业 的 批量 操作 。 因 此 ,对 于 Master 节点 硬件 需求 的 特点 是 高 内 存 、 低 存储 需 
求 ;Slave 节点 既是 存储 也 是 计算 ,对 硬件 需求 要 考虑 有 足够 的 存储 空间 和 足够 的 计算 能 
力 (CPU 速度 和 内 存 大 小 ); 对 客户 端 节 点 的 硬件 需求 则 要 考虑 其 稳定 性 和 满足 应 用 需 
求 。 表 3.4 给 出 了 Hadoop 小 型 集群 (40 节点 以 内 ) 的 各 个 节点 的 一 些 参考 配置 , 供 读者 


在 硬件 选 型 上 作为 参考 基线 。 
表 3.4 Hadoop 集群 各 节点 配置 基线 


服务 器 角色 


及 服务 类 型 功 能 配置 基线 说 B 
运行 NameNode CPU. 双 四 核 英 特 处 | CD 如 果 中 等 规模 集群 (400 节点 以 
JobTracker 和 理 器 上 ) ,就 要 考虑 内 存 翻 倍 , 即 考 
Master Sesal TET 内 存 : 24GB DDR3 虑 再 增加 24GB 内 存 ; 
35 aryNameNode | 网 卡 : 2X1GB Ethernet | (2) 对 于 大 型 集群 ,最 好 再 翻 倍 , 即 
i 硬盘 : 至 少 两 块 SATA 96GB 以 上 会 更 好 一 些 
记录 HDFS 中 元 数 
据 , 即 包括 文件 名 、 权 (1) NameNode 信息 会 随 着 集群 的 
限 , 所 有 者 ,所 有 组 、| 内 存 : 足够 的 内 存 使 用 以 及 规模 而 增加 ; 
NameNode 每 个 文件 对 应 的 | 硬盘: 适当 的 专用 硬盘 | (2) 大 约 一 百 万 个 Block(64MB 或 
Block 列表 , 以 及 每 | (稳定 性 至 关 重要 ) 128MB) 或 文件 , 会 占据 
个 Block 的 副本 目前 NameNode 1GB 的 内 存 
存在 于 哪个 机 器 上 
(1) 建议 与 NameNode 使 用 一 样 的 
硬件 配置 ,便于 维护 管理 ; 
p. 
内 存 , 足够 的 内 存 (2) ard : P phis 
SecondaryNameNode | 功能 同 NameNode 硬盘 : 专用 硬盘 (稳定 ads k 


性 至 关 重 要 ) 


StandbyNameNode 取代 了 
SecondaryNameNode, 但 两 者 功 
能 相同 ,因此 ,二 者 硬件 配置 
一 样 


(1) JobTracker 在 内 存 中 默认 保留 

在 内 存 中 记录 所 有 100 个 运行 过 的 Job 信息 ; 
JobTracker Job 和 Task 的 状态 、| 内 存 : 满足 需求 大 内 存 | (2) JobTracker 的 内 存 使 用 情况 是 
计数 器 、 进 行情 况 等 无 法 估计 的 , 一定 要 关注 

JobTracker 的 内 存 占 用 情况 
CPU: 双 六 核 英 特 处 | COD 对 于 存储 ,由 于 HDFS 默认 是 
理 器 三 个 副本 ,如 果 系 统 每 天 产生 
内 存 : 64GB DDR3 1TB 数据 , 则 HDFS 的 需求 就 
DataNode 每 个 节点 同时 既是 计 | 网 卡 : 双 1GB 网 卡 增长 3TB; 

算 也 是 存储 硬盘 控制 器 : SAS|(2) 对 于 计算 ,运行 MapReduce fit 
6GB/s 要 一 定 的 临时 空间 ,一 般 考虑 


硬盘 : 12X3TB SATA 
网 络 : 2X1GB Ethernet 


按照 磁盘 空间 的 20% — 30 74 f£ 
28 MapReduce 临时 目录 


e 622 mokuguR 


注 : 对 于 所 有 集群 中 的 服务 器 (除了 NameNode 和 SecondaryNameNode 节点 外 ) , 建 
议 在 物理 硬盘 中 不 要 使 用 RAID, 如 果 RAID 无 法 被 移 除 ,可 将 每 个 物理 硬盘 单独 设置 为 
RAID 0, 
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Hadoop 不 仅 需 要 硬件 环境 的 支撑 ,同样 也 需要 软件 环境 的 支撑 。 其 中 , Hadoop 的 
软件 环境 主要 包括 支撑 Hadoop 运行 的 操作 系统 .Hadoop 运行 环境 和 Hadoop 节点 之 间 
的 安全 通信 协议 。 


1. 操作 系统 


由 于 Hadoop 是 在 Linux 环境 下 开发 的 ,一 般 来 说 会 选择 的 操作 系统 也 为 Linux 操 
作 系 统 。 任 何 一 个 支持 Java 1. 6 的 Linux 操作 系统 都 可 以 运行 Hadoop, ll Red Hat 
Enterprise Linux, CentOS, Ubuntu Server Edition, SuSE Enterprise Linux, Debian, 
Oracle Linux 等 操作 系统 环境 都 与 之 匹配 。 但 是 ,从 Hadoop 2.0 生态 系统 开始 ,已 经 支 
持 在 Windows 操作 系统 上 运行 了 ,并 且 HortonWorks 和 微软 公司 合作 ,所 开发 的 HDP 
的 Hadoop 版 本 是 有 Windows 发 布 版 本 的 。 因 此 ,操作 系统 的 选择 主要 取决 于 该 系统 对 
硬件 的 支持 能 力 、 系 统管 理 人 员 对 系统 的 熟悉 程度 和 对 目前 所 使 用 的 商业 软件 的 支持 能 
力 等 。 

目前 ,Hadoop 系统 仍 大 多 运行 在 Linux 系统 上 ,并 已 在 有 2000 个 节点 的 GNU/ 
Linux 主机 组 成 的 集群 系统 上 得 到 验证 。 在 Windows 环境 中 安装 的 Hadoop, 是 作为 开 
发 平台 支持 的 ,但 由 于 分 布 式 操作 尚未 在 Windows 平台 上 充分 测试 ,所 以 只 是 以 学 习 和 
研究 为 目的 ,暂时 不 建议 作为 一 个 生产 平台 使 用 。 


2. Java 运行 环境 


Hadoop 系统 本 身 是 用 Java 语言 编写 的 ,但 也 有 少量 的 C/C++ 代码 。 因 此 ,Hadoop 
的 正常 运行 需要 JDK(Java Development Kit) 的 支持 。 在 安装 JDK 时 ,也 不 建议 只 安装 
JRE(Java Runtime Environment) ,建议 直接 安装 JDK. KX Hadoop 中 的 MapReduce 
程序 的 编写 和 Hadoop 的 编译 都 需要 使 用 到 JDK 中 的 编译 工具 ,而 JRE 无 法 满足 需求 ， 
并 且 安装 JDK 时 ,可 以 同时 安装 JRE. i JDK 的 版 本 繁多 ,具体 的 兼容 性 情况 请 查看 
K 3. 5 所 给 出 的 产 商 官方 及 一 些 用 户 的 兼容 性 测试 通过 的 JDK 版 本 。 


表 3.5 Hadoop 5 JDK 兼容 性 测试 通过 的 版 本 
(数据 来 源 : http://wiki. apache. org/hadoop/ HadoopJavaVersions) 


JDK 版 本 测试 产 商 
Oracle 1. 6.0_16 Cloudera 
Oracle 1.6. 0 18 不 详 
Oracle 1. 6.0_19 不 详 
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JDK 版 本 测试 产 商 
Oracle 1.6. 0 20 LinkedIn, Cloudera 
Oracle 1.6.0 21 Yahoo! ,Cloudera 
Oracle 1.6. 0 24 Cloudera 
Oracle 1.6.0 26 Hortonworks,Cloudera 
Oracle 1.6. 0. 28 LinkedIn 
Oracle 1.6.0 31 Cloudera, Hortonworks 
Oracle 1. 7. 0. 15 Cloudera 
Oracle 1. 7. 0 21 Hortonworks 
Oracle 1. 7. 0 45 Pivotal 
Openjdk 1. 7. 0 09-icedtea Hortonworks 


从 表 3. 5 可 以 看 出 ,使 用 Oracle Sun 的 标准 的 JDK 1. 6. 环境 ,这 是 一 个 通过 测试 
的 环境 ,推荐 使 用 JDK 1.6 以 后 的 版 本 ;如 果 是 Java 7, 则 可 以 使 用 系统 默认 的 Openjdk 
1.7。 其 中 ,Hortonworks 公司 已 经 验证 JDK 1.6.0 31 f£ RHEL 5/CentOS 5. RHEL 6/ 
CentOS 6 和 SLES 11 操作 系统 下 对 Hadoop 1. X . HBase. Pig. Hive,HCatalog,Oozie， 
Sqoop 和 Ambari 具有 很 好 的 兼容 性 ;JDK 1.7.0.21 在 RHEL 5/CentOS 5. RHEL 6/ 
CentOS 6 和 SLES 11 操作 系统 下 对 Hadoop 2. 2. 0. HBase 0. 96. Pig. Hive, HCatalog. 
Oozie.Sqoop 和 Ambari 具有 很 好 的 兼容 性 ;Openjdk 1. 7. 0. 09-icedtea 在 RHEL 6 操作 
系统 下 对 Hadoop 2. 2. 0. HBase 0. 96,Pig,Hive,HCatalog,Oozie,Sqoop 和 Ambari 具有 
很 好 的 兼容 性 。 


3. 安全 通信 协议 SSH 


Hadoop 是 一 个 集群 的 环境 ,集群 中 的 管理 节点 (MasterNode) 需 要 对 集群 中 的 其 他 
节点 的 服务 进程 进行 远程 的 启动 和 停止 时 ,就 需要 使 用 SSH 协议 。SSH 工具 能 够 用 来 
启动 远程 的 命令 ,通过 SSH 工具 能 够 在 一 个 中 心 的 管理 节点 上 远程 启动 集群 中 的 其 他 节 
点 的 服务 进程 ,如 NameNode 节点 使 用 SSH 无 密码 登录 并 启动 DataNode 进程 ,同样 ， 
DataNode 上 也 能 使 用 SSH 无 密码 登录 到 NameNode 节点 。 

1) NameNode 无 密码 登录 所 有 DataNode 

将 NameNode 作为 客户 端 ,生成 一 个 密 钥 对 ,包括 一 个 公 钥 和 一 个 私 钥 ,然后 将 公 钥 
复制 到 DataNode 上 。 当 NameNode 通过 SSH 连接 DataNode 时 ,DataNode 就 会 生成 一 
个 随机 数 并 用 NameNode 的 公 钥 对 随机 数 进 行 加 密 , 并 发 送 给 NameNode。NameNode 
收 到 加 密 数 之 后 再 用 私 钥 进行 解密 ,并 将 解密 数 回 传 给 DataNode,DataNode 确认 解密 数 
无 误 之 后 就 允许 NameNode 进行 连接 。 此 过 程 中 ,不 需要 用 户 手工 输入 密码 ,只 需要 将 
NameNode 上 的 公 钥 复制 到 DataNode 上 。 
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2) DataNode 无 密码 登录 NameNode 
和 NameNode 无 密码 登录 DataNode 原理 相同 ,只 需要 把 DataNode 的 公 钥 复制 到 
NameNode 上 。 整 个 过 程 只 涉及 创建 密 钥 ,复制 公 钥 添加 公 钥 内 容 , 并 不 需要 更 改 配置 文件 。 
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由 于 Hadoop 中 的 MapReduce 在 执行 作业 调度 时 ,需要 进行 Map 和 Reduce 两 个 过 
程 ,虽然 Hadoop 在 Map 阶段 进行 任务 调度 时 ,会 尽量 使 任务 本 地 化 ,但 是 对 于 Reduce 
过 程 仍 会 产生 大 量 的 IO。 因 此 ,Hadoop 集群 网 络 在 任意 节点 间 的 带宽 需求 都 很 高 。 如 
果 网 络 拓扑 结构 设计 时 采用 层级 很 多 的 树 状 网 络 ,就 会 降低 网 络 性 能 ,如 图 3. 7(a) 所 示 ; 
如 果 网 络 拓扑 结构 设计 时 采用 层级 很 少 的 Fabric 网 络 , 将 会 提高 集群 的 网 络 性 能 ,如 
图 3.7(b) 所 示 。 


(a) 树 状 网 络 (b) Fabric 网 络 
图 3.7 网 络 拓扑 结构 


另外 ,为 了 使 得 Hadoop 集群 能 够 正常 运行 ,建议 最 低 使 用 千 兆 以 太 网 连接 ,更 高 的 
带宽 会 带 来 更 好 的 性 能 。 由 于 网 络 内 部 有 数据 交换 的 需求 ,建议 配置 大 容量 的 网 络 交换 
机 ,可 以 重点 关注 交换 机 的 背 板 带宽 。 具 有 和 良好 背 板 交 换 能 力 的 交换 机 能 使 得 任意 两 个 
接口 之 间 的 速度 以 及 上 行 速度 都 能 达到 千 兆 的 速度 ,而 通过 总 线 进行 共享 的 带宽 很 难 达 
到 理想 的 速度 。 如 果 整 个 集群 的 负载 比较 高 或 者 需要 通过 绑 定 两 个 以 上 1GB 网 卡 来 增 
加 带宽 时 ,就 需要 考虑 部 署 10GB 以 太 网 络 ;如 果 需 要 的 通信 和 量 更 大 或 者 需要 混合 一 些 高 
性 能 计算 程序 ,就 需要 更 加 高 端的 网 络 配 置 ,推荐 使 用 InfiniBand 网 络 , 该 网 络 具有 更 好 
的 实现 机 制 , 能 够 减少 网 络 的 冲突 。 


3.6 Hadoop 集群 的 安装 与 配置 


3.5 节 已 经 介绍 进行 Hadoop 集群 的 安装 配置 至 少 需 要 的 软 硬 件 环境 和 网 络 环境 ， 
本 节 将 通过 虚拟 化 技术 来 构建 满足 Hadoop 部 署 的 软 硬 件 环境 和 网 络 环境 。 另 外 ,本 节 
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中 的 软件 环境 采用 了 JDK 1. 7 版 本 ,VMware Workstation 虚拟 机 ,CentOS 7 操作 系统 ， 
针对 Hadoop 1. 0 生态 系统 选用 的 Hadoop 1. 2. 1 stable 版 本 ,针对 Hadoop 2. 0 生态 系 
统 选用 的 Hadoop 2.6.0 stable 版 本 ,并 将 重点 介绍 如 何在 Linux 下 快速 搭建 Hadoop 环 
境 , 帮 助 初学 者 对 Hadoop 系统 进行 更 深入 的 研究 和 学 习 。 
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一 个 完整 的 Hadoop 集群 的 安装 ,首先 要 做 好 Hadoop 集群 的 规划 , 即 要 确保 用 于 构 
建 集群 的 所 有 服务 器 满足 集群 节点 要 求 ( 软 件 环 境 要 求 ,硬件 环境 要 求 和 网 络 环境 要 求 )， 
然后 在 集群 中 的 所 有 节点 上 安装 相应 的 操作 系统 、 配 置 Hadoop 系统 的 软件 环境 、 安 装 
Hadoop、 进 行 集群 参数 配置 等 一 系列 工作 。 因 此 ,在 进行 Hadoop 集群 安装 之 前 ,首先 要 
进行 集群 规划 和 环境 准备 这 两 个 过 程 。 


1. 集群 规划 


集群 规划 主要 是 根据 业务 需求 规划 所 使 用 的 Hadoop 组 件 , 规 划 集 群 的 硬件 参数 , 规 
划 集 群 使 用 的 网 络 ,规划 各 节点 的 IP 地址 及 节点 的 角色 等 。 例 如 ,对 Hadoop 的 组 件 规 
划 包 括 可 能 会 使 用 到 的 HDFS、MapReduce、Hive、HBase 等 ;对 集群 的 硬件 参数 规划 包 
括 服 务 器 数量 ,物理 布局 .机 架 数 据 以 及 服务 器 在 机 架 上 的 分 配 等 ;对 集群 所 使 用 的 网 络 
规划 包括 集群 网 络 的 拓扑 结构 、 节 点 到 交换 机 的 连接 、 机 柜 之 间 的 连接 等 ;对 各 节点 IP 地 
址 及 节点 角色 的 规划 包括 各 节点 IP 地 址 的 分 配 ,确定 Hadoop 的 各 个 角色 运行 在 哪些 节 
点 上 等 。 因 此 ,针对 不 同 规模 的 Hadoop 集群 有 不 同 的 集群 规划 方案 。 表 3. 6 给 出 了 一 
个 Hadoop 1.0 生态 系统 集群 的 典型 节点 分 配方 案 , 读 者 可 根据 实际 业务 需求 情况 进行 
相应 的 调整 。 


表 3.6 Hadoop 集群 典型 的 节点 分 配 


f ë Hx 节点 数目 
分 布 式 文件 系统 用 以 存储 文件 系 | _ 
NameNode 统 以 及 数据 块 的 元 数据 个 独立 节点 


SecondaryNameNode | NameNode 的 备份 节点 小 规模 集群 可 以 和 NameNode 共享 节点 ， 


大 规模 集群 建议 用 独立 节点 
DataNode HDFS 数据 存储 多 个 独立 节点 
一 个 独立 节点 ,小 规模 集群 可 以 与 
JobTracker MapReduce 调试 程序 NameNode 共享 ,大 规模 集群 建议 使 用 独 
立 节点 
TaskTracker MapReduce 计算 节点 与 DataNode 运行 在 相同 的 节点 之 上 


独立 配置 的 话 可 以 与 NameNode 共享 节 
点 ,或 者 将 元 数据 存放 在 客户 端 

三 个 或 三 个 以 上 的 奇数 据 独立 节点 ,小 规 
模 可 以 和 其 他 角色 共享 节点 


HBase HMaster 提供 调试 RegionServer 的 主 模块 | 与 其 他 角色 共享 节点 的 多 个 节点 


Hive Hive 元 数据 及 驱动 程序 


ZooKeeper 提供 集群 高 可 用 性 的 锁 服 务 
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续 表 
角 色 描 述 节点 数目 
HBase RegionServer | 提供 管理 数据 的 模块 一 般 与 DataNode 运行 在 相同 的 节点 上 
ManagementNode | 集群 监控 管理 节点 cR za ame NM 


在 没有 实际 业务 需求 ,以 研究 和 学 习 为 目的 ,并 帮助 初学 者 快速 搭建 Hadoop 集群 环 
境 的 情况 下 ,我 们 使 用 最 新 的 稳定 版 本 Hadoop 2. 6. 0(Hadoop 2. 0 生态 系统 ) ,并 规划 一 
个 Master 节点 和 三 个 Slave 节点 来 搭建 Hadoop 集群 。 其 中 ,Master 节点 和 Slave 节点 
可 使 用 4 台 装 有 Linux 操作 系统 的 普通 PC, 也 可 由 虚拟 机 创建 (本 实验 环境 是 用 
VMware 虚拟 机 创建 的 一 个 Master 节点 和 三 个 Slave 节点 ,其 操作 系统 均 为 CentOS 7)， 
具体 节点 角色 分 配 和 配置 参数 信息 如 表 3.7 所 示 。 


表 3.7 Hadoop 2.0 生态 系统 集群 节点 角色 分 配 


机 器 名 称 角 色 IP 地 址 硬件 参数 操作 系统 
NameNode p 1GB 
Masterl. Hadoop | SecondaryNameNode | 192.168. 1.100 | 悚 处理 器 1 CentOS 7 
ResourceManager 号 硬盘 (SCS) 20GB 
"ps 168 
DataNod 
Slavel. Hadoop pps 192.168.1.101 | 日 处 理 器 1 CentOS 7 
NodeManager 局 硬盘 (SCSD 20GB 
"ps 1GB 
DataNod 
Slave2. Hadoop elis 192.168.1.102 | mang% 1 CentOS 7 
NodeManager 加 硬盘 (SCSD 20GB 
mp 1GB 
Nod 
SiveiHadogp | RS 192. 168. 1. 103 | 日 处 理 器 1 CentOS 7 
NodeManager 加 硬盘 (SCSD 20GB 


ik: 在 实际 Hadoop 集群 环境 中 ,由 于 NameNode 对 内 存 开销 非常 大 ,所 以 最 好 不 要 
将 NameNode 和 SecondaryNameNode 部 署 在 同一 台 服 务 器 上 。 

由 表 3.7 可 以 看 出 ,Master 机 器 主要 配置 NameNode 和 ResourceManager 的 角色 ， 
负责 总 管 分 布 式 数据 和 分 解 任务 的 执行 ;Slave 机 器 配置 DataNode 和 NodeManager 的 
角色 ,负责 分 布 式 数据 存储 以 及 任务 的 执行 ;集群 中 各 节点 IP 地 址 要 设置 在 同一 网 段 中 
(真实 环境 中 使 用 的 是 192. 168. 1. * 网 段 , 虚 拟 机 环境 中 使 用 的 是 192. 168. 85. * 网 段 ); 
集群 节点 的 操作 系统 均 为 CentOS 7 操作 系统 。 图 3. 8 给 出 了 该 Hadoop 集群 网 络 的 拓 
扑 结 构 。 其 中 ,图 3. 8(a) 是 在 真实 的 环境 中 (一 台 路 由 连接 的 4 台 PC) 的 网 络 拓扑 ; 
图 3. 8(b) 是 使 用 VMware 虚拟 机 环境 下 (用 虚拟 机 创建 了 4 台 逻 辑 上 独立 存在 的 PC) 的 
网 络 拓扑 结构 。 本 质 上 图 3. 8(a) 和 图 3. 8(b) 是 同一 个 网 络 拓扑 结构 。 

简单 的 Hadoop 2. 0 生态 系统 集群 到 此 就 规划 完毕 ,下 面 将 介绍 对 集群 中 的 各 个 节 
点 进行 环境 准备 .Hadoop 安装 和 集群 配置 等 内 容 。 
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2. 环境 准备 


Hadoop 的 安装 部 署 需要 相应 的 硬件 和 软件 的 支撑 ,而 且 分 布 式 的 存储 和 计算 必然 
需要 用 到 很 多 机 器 ,在 Hadoop 部 署 时 用 户 需 要 多 台 服 务 器 来 满足 硬件 需求 。 对 大 部 分 
读者 来 说 并 没有 直接 适应 Hadoop 部 署 的 硬件 环境 。 因 此 ,可 以 通过 虚拟 化 技术 来 构建 
满足 Hadoop 部 署 的 硬件 环境 ,这 就 需要 如 VMware Workstation、VirtualBox 等 虚拟 机 
工具 的 支持 。 具 体 Hadoop 安装 部 署 的 准备 环境 过 程 如 下 。 

1) 安装 VMware 虚拟 机 

对 于 硬件 条 件 有 限 的 读者 (主要 针对 Windows 系统 用 户 , 对 于 Linux 系统 用 户 请 忽 
了 略 此 步 又) ,可 以 利用 虚拟 机 来 学 习 Hadoop 的 软 硬 件 环境 的 配置 工作 。 通 过 虚拟 机 可 以 
将 一 台 机 器 虚拟 化 成 两 台 或 多 台 机 器 ,并 且 虚 拟 后 的 机 器 和 实体 机 器 使 用 上 无 任何 区 别 ， 
用 户 可 把 虚拟 机 当 作 实 体 机 器 来 使 用 ,并 且 在 虚拟 机 上 的 误 操 作 也 不 会 对 真实 计算 机 造 
成 任何 影响 。 笔 者 使 用 的 是 Windows 8 系统 ,在 Windows 系统 下 安装 了 VMware 
Workstation 10 虚拟 机 。 读 者 可 在 VMware 公司 官网 (https://www. vmware. com/ 
cn/) 下 载 虚拟 机 或 者 查看 本 书 的 配套 资料 的 软件 目录 中 查找 该 软件 。VMware 虚拟 机 的 
安装 十 分 简单 ,在 这 里 就 不 多 袭 述 了 ,如 有 疑问 可 查阅 相关 资料 。 

2) VMware 引导 Linux 系统 

本 实例 选用 的 Linux 操作 系统 为 CentOS 7 版 本 ,因为 CentOS 是 目前 主要 应 用 于 生 
产 环境 的 Linux 系统 之 一 。 读 者 可 在 CentOS 官网 (http://www. centos. org/) 下 载 或 者 
查看 本 书 的 配套 资料 的 软件 目录 中 查找 该 系统 。 安 装 过 程 如 下 。 

注 : 对 于 没有 使 用 虚拟 机 的 读者 可 以 直接 忽略 上 述 过 程 ,并 直接 阅读 下 面 的 Liunx 
操作 系统 安装 步骤 。 

双击 VMware Workstation 10 桌面 图 标 国 , 进 入 如 图 3. 9 所 示 的 界面 。 


ZAD AAE EEV 虚拟 机 (M) ARF ENH) 
pralo Ox win 
= $m x | 


x 


Q GXAMBARR. T 
OUSSHENL 


vmware 
2sseum Workstation 10 


iena 
创建 新 的 虚拟 机 GRRR EEEREN, 


EN 
从 现 有 物 至 机 他 经 走 所 机 。 


打开 虐 拟 机 d vns 
e FEE vare Wontotation «E, — 


3.9 VMware Workstation 10 启动 界面 


第 3 章 基于 Hadoop 的 大 数据 生态 系统 et 


单 击 “ 创 建新 的 虚拟 机 ”, 进 入 选择 安装 类 型 ,其 中 有 两 种 安装 类 型 : 典型 和 自 定 义 。 
在 这 里 选择 “典型 "安装 类 型 ,如 图 3. 10 所 示 。 


欢迎 使 用 新 建 虚拟 机 向 导 


您 希望 使 用 什么 类 型 的 配置 ? 


vmware 

Workstation O 自 定义 (高 级 )(C) 
创建 带 有 SCSI 控制 器 类 型 、 虚 拟 磁 盘 类 
型 以 及 与 旧版 VMware 产品 兼容 性 等 高 
级 选项 的 虚拟 机 。 


< 上 一 步 (6) | 下 一 步 (N) > | | ma 


图 3. 10 安装 类 型 选择 界面 


单 击 “下 一 步 ?按钮 ,进入 “新 建 虚拟 机 向 导 ”, 其 中 安装 来 源 有 三 个 选项 : 安装 程序 光 
盘 、 安 装 程序 光盘 映像 文件 和 稍 后 安装 操作 系统 。 由 于 我 们 已 从 CentOS 官网 下 载 了 
CentOS 7 的 Linux 操作 系统 ,在 这 里 选择 “安装 程序 光盘 映像 文件 ,并 单 击 “浏览 "按钮 ， 
选择 CentOS 7 的 映像 文件 位 置 ,如 图 3.11 所 示 。 


安装 客户 机 操作 系统 
虚拟 机 如 同 物理 机 ， 需 要 操作 系统 。 您 将 如 何 安装 客户 机 操作 系统 ? 


安装 来 源 : 


O 安装 程序 光盘 (D): 
wm CD 驱动 器 (F:) ZTEMODEM 


A 无 法 检测 此 光盘 映像 中 的 操作 系统 。 
您 需要 指定 要 安装 的 操作 系统 。 


O 稍 后 安装 操作 系统 (S)。 
创建 的 虚拟 机 将 包含 一 个 空白 硬盘 。 


帮助 | < 上 - 步 (B) | | 下 一 步 (N) > | | 


3.11 新 建 虚拟 机 向 导 


OO sxxuxum 


单 击 “ 下 一 步 ?按钮 ,选择 虚拟 机 中 要 安装 哪 种 类 型 的 操作 系统 ,并 给 出 了 相应 的 选 
项 : Microsoft Windows, Linux, Novell NetWare, Solaris, VMware ESX 和 其 他 。 由 于 
CentOS 属于 Linux 操作 系统 ,在 这 里 选择 Linux, 并 选择 Linux 的 版 本 为 “CentOS 64 
位 ”( 这 要 根据 所 下 载 的 CentOS 版 本 来 决定 ) ,如 图 3. 12 所 示 。 


选择 害 户 机 操作 系统 
此 虚拟 机 中 将 安装 哪 种 操作 系统 ? 


客户 机 操作 系统 


CO Microsoft Wndows(W) 
T Novel NetWare(E) 


O Solris(5) 


(O VMware ESX(X) 
口 其 他 (O) 


版 本 (V) 
[Centos 64 位 


[< 上 一 步 B) | | 下 一 步 (N) > 


图 3.12 选择 客户 机 操作 系统 


单 击 “ 下 一 步 " 按 钮 ,进入 命名 虚拟 机 界面 ,可 根据 之 前 集群 规划 方案 进行 相应 的 命 
名 ,这 里 取 名 为 “Masterl. Hadoop” (建议 取 名 尽量 见 名 知 意 ,方便 后 期 的 识别 ), 并 单 击 
“浏览 ”按钮 ,选择 虚拟 机 安装 位 置 ,这 里 使 用 默认 位 置 D: N VM wareHadoop Masterl. 
Hadoop, 如 图 3. 13 所 示 。 


命名 虚拟 机 
您 要 为 此 虚拟 机 使 用 什么 名 称 ? 


虚拟 机 名 称 (V): 


Masteri.Hadoop 


QAU): 


[paa TIS] 


在 "编辑 ">" 首 选项 "中 可 更 改 默认 位 置 。 


[< 上 一 步 B) | | 下 一步 (N) > 


3.13 命名 虚拟 机 
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单 击 “ 下 一 步 ?按钮 ,进入 指定 硬盘 容量 界面 “最 大 硬盘 大 小 ?为 20GB, 并 选择 “将 虚 
拟 磁盘 拆 分 成 多 个 文件 ”这 两 个 选项 都 为 默认 设置 ) ,如 图 3. 14 所 示 。 


指定 磁盘 容量 
磁盘 大 小 为 多 少 ? 


虚拟 机 的 硬盘 作为 一 个 或 多 个 文件 存储 在 主机 的 物理 磁盘 中 。 这 些 文件 最 
初 很 小 ， 随 着 您 向 虚拟 机 中 添加 应 用 程序 、 文 件 和 数据 而 乏 渐变 大 。 


最 大 而 盘 大 小 (GB)(S): Cee] 


针对 CentOS 64 位 的 建议 大 小 : 20 GB 


〇 将 虚拟 磁盘 存储 为 单个 文件 (O) 


图 将 虚拟 磁盘 拆 分 成 多 个 文件 (M) 
拆 分 磁盘 后 ， 可 以 更 轻松 地 在 计算 机 之 间 移 动 虚拟 机 ， 但 可 能 会 降低 大 容量 
磁盘 的 性 能 。 


图 3.14 指定 硬盘 容量 


单 击 “ 下 一 步 "按钮 ,进入 虚拟 机 的 硬件 环境 选择 界面 , 单 击 自 定义 硬件 ”按钮 ,进行 
虚拟 机 的 硬件 环境 选择 。 此 Masterl. Hadoop 虚拟 机 配置 参数 均 为 默认 设置 即 可 ,如 


图 3.15 所 示 。 


已 准备 好 创建 虚拟 机 
单 击 "完成 "创建 虚拟 机 。 然 后 可 以 安装 CentOS 64 位 。 


将 使 用 下 列 设置 创建 虚拟 机 : 


Master1.Hadoop 
D:\VMwareHadoop\Master1.Hadoop 
Workstation 10.0 

CentOS 64 位 


20 GB, 拆 分 

1024 MB 

NAT 

CD/DVD, USB 控制 器 , 打印 机 , 声卡 


自 定义 硬件 (C)… 


< 上 一 步 (B) | 


图 3.15 创建 虚拟 机 的 硬件 环境 


e 724A sou xta 


单 击 “* 完 成 ”按钮 ,虚拟 机 创建 完成 ,可 以 从 VMware Workstation 工作 界面 中 看 到 虚 
拟 机 的 名 称 "Masterl. Hadoop”、 虚 拟 机 的 硬件 环境 和 有 关 虚 拟 机 的 详细 信息 ,如 图 3. 16 
所 示 。 


WHO SAH SEV 志 拟 机 (M) 选项 卡 (] EMH) 
>- o 6drmxX:s m 


主页 £i Master1.Hadoop 


Cj Master1.Hadoop 


D THESE 
TERRENS 


168 
1 

mascsn 20 GB 

JCD/DVD (IDE) 。 正在 征用 文件 E 
RATRE 
Buss 控制 器 
m 
iE 
EE] a F 虚拟 机 详细 信息 

状态 ; 已 关机 

配置 文件 ; DAVMware..WMaster1.Hadoop.vmx 

硬件 兼容 性 : Workstation 10.0 SHUN 


CE 
图 3.16 虚拟 机 创建 完 
最 后 , 右 击 虚拟 机 名 Master. Hadoop 习 “电源 ”一 “启动 客户 端 ", 完 成 虚拟 机 启 
3) 安装 Linux 操作 系统 
虚拟 机 启动 后 ,将 会 引导 CentOS 系统 的 安装 界面 ,选择 Install CentOS 7, 如 图 3. 17 
所 示 。 


nstall Cent0S 7 


T This media 


图 3.17 CentOS 系统 安装 


选择 Install CentOS 7 之 后 ,将 进行 语言 选择 。 对 于 测试 环境 而 言 , 可 以 选择 “中 文 ” 
一 简体 中 文 (中 国 )”; 对 于 正式 生产 服务 器 建议 选择 英文 版 本 。 本 实例 选用 英文 版 本 ,如 
图 3. 18 所 示 。 

单 击 Continue 按钮 ,进入 CentOS 配置 界面 ,有 本 地 化 、 软 件 和 系统 三 方面 的 配置 ， 
只 有 都 配置 完成 后 ,Begin Installation 才 可 使 用 。 这 里 可 根据 个 人 喜好 进行 选择 ,在 安装 
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CENTOS 7 INSTALLATION 
Bus 
WELCOME TO CENTOS 7. 
What language would you like to use during the installation process? 
English English English (United States) 
Afrikaans Afrikaans English (United Kingdom) 
Macy Amharic anaa 
English (Australia) 
aajl Arabic 
_ English (Canada) 
wi Assamese 
English (Denmark) 
Asturianu Asturian English (Ireland) 
6enapyckag Belarusian English (New Zealand) 
Benrapcxn Bulgarian English (Nigeria) 
Bengali English (Hong Kong SAR China) 
accu a 
Quit Continue 
图 3.18 语言 选择 界面 


源 方面 ,使 用 的 “本 地 介质 ;在 软件 选择 方面 ,选择 了 GNOME Desktop; 在 安装 位 置 方 


ifj ,选择 了 Automatic partitioning selected( 自 动 分 区 ); 在 网 络 和 主机 名 方面 


选择 了 “ 开 


启 网 络 ” 并 命名 主机 名 为 “Masterl. Hadoop”, IP 地 址 设置 为 静态 IP“192. 168. 85. 100", 


网 关 和 NDS 都 为 "192. 168. 85. 2”, 如 图 3. 19 所 示 。 


INSTALLATION SUMMARY 


iie Ma OCALIZATION 


DATE & TIME 
Americas/New York timezone 


LANGUAGE SUPPORT 
English (United States) 


ISOFTWARE 


INSTALLATION SOURCE 
Local media 


INSTALLATION DESTINATION 
Automatic partitioning selected 


CENTOS 7 INSTALLATION 
Bus 


KEYBOARD 
English (US) 


SOFTWARE SELECTION 
GNOME Desktop 


NETWORK & HOSTNAME 


Not comected 


Quit Begin Installation 


3.19 CentOS 7 系统 配置 界面 


OO suxun 


在 网 络 和 计 


E 机 名 方面 , 单 击 NETWORK&HOSTNAME 进入 网 络 信息 界面 ,选择 
“开启 网 络 ? 并 命名 主机 名 为 “Masterl. Hadoop”, 如 图 3. 20 所 示 。 


NETWORK & HOSTNAME 


Ethernet (eno16777736) EH- 开启 网 络 
Connected 


Hardware Address 00:0C:29.FF.77:1D 
Speed 1000 Mb/s 


IP Address 192.168.85.100 


Subnet Mask 255.255.255.0 


| -一 网 络 配置 信息 
Default Route 192.168.85.2 


DNS 192.168.85.2 


me 


— uo 


主机 名 


Hostname| Master1.Hadoop 


图 3.20 开启 网 络 界 面 


单 击 Configure 按钮 进入 网 络 设置 界面 , 单 击 IPv4 Settings, 方 法 选择 Manual 手动 
设置 模式 , 单 击 Add 按钮 将 IP 地 址 设置 为 静态 IP*192. 168. 85. 100”, 网 关 和 NDS 都 为 
“192. 168. 85. 2”。 最 后 单 击 Save 按钮 完成 网 络 设置 ,如 图 3. 21 所 示 。 


Editing eno16777736 


Connection name: |eno16777736 


— 
General] Ethernet / 802.1x Security Dea va settings | Settings. 


选择 IPv4 Settings 
wawa [一 
Addresses 
Address Netmask Gateway 
192.168.85.100 255.255.255.0 hs: m | 
一 设置 TP 地 址 
onssevers: [zp 


Search domains: 


Require IPv4 addressing for this connection to complete 


Routes... 


Cancel Save... 


图 3.21 网 络 设置 界面 
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单 击 Begin Installation 按钮 ,进入 安装 界面 并 要 求 配置 用 户 名 和 密码 ,在 这 里 设置 了 
root 用 户 的 密码 为 root ,新 创建 了 用 户 名 为 hadoop ,密码 为 : hadoop 的 新 用 户 , 如 图 3. 22 
所 示 。 

设置 ROOT 密码 添加 hadoop 用 户 并 设置 密码 


CONFIGURATION CENTOS 7 INSTALLATION 
Elus 


iie USER SETTINGS 


e ROOT PASSWORD (9 usER CREATION 
" Root password is set (ii User hadoop will be created 


证 Installing gnutls (189/1332) 


ÁE s 
PntOS Cloud-Instance SIG 


ntOS instances in public and private cloud environments: 


图 3.22 CentOS 安装 界面 


最 后 ,安装 完成 后 会 提供 重启 , 单 击 Reboot, 重 启 后 进行 “许可 信息 ”、 内 核 崩溃 转 储 
机 制 Kdump 等 配置 ,就 完成 了 CentOS 7 操作 系统 的 安装 。 

4) 网 络 配 置 

Hadoop 集群 各 个 节点 之 间 是 互通 的 ,这 就 需要 对 每 个 节点 进行 网 络 配置 。 网 络 配 
置 可 以 在 安装 CentOS 时 进行 配置 (本 实例 是 在 安装 CentOS 7 系统 时 进行 了 网 络 配置 ， 
对 于 已 进行 网 络 配置 的 读者 可 以 跳 过 此 步骤 ), 也 可 在 CentOS 安装 完成 之 后 ,打开 
CentOS 终端 ( 国 Tee ) 进 行 配置 ,具体 的 配置 过 程 如 下 。 

(1) 关闭 防火 墙 

首先 要 切换 为 ROOT 用 户 . 输 入 ROOT 用 户 对 应 的 密码 (本 实例 ROOT 用 户 对 应 的 密 
码 为 : root) 回 车 后 ,获得 ROOT 用 户 权 限 。 查 看 防火 墙 是 否 处 于 开启 状态 ,如 果 处 于 开启 
状态 通过 关闭 防火 墙 命令 将 其 停止 运行 ,如 图 3. 23 所 示 。 具 体 的 操作 命令 行 如 下 。 


$ su — root =-- 切 换 Foor 用 户 
disystemctl status firewalld.servioe -—UB B AGRO S 
#systemct1 stop firewalld.service =-- 关 闭 防 火 墙 


#systemct1 disable firewalld.servioe -KAGKEBI B X 388 


OO sxuxum 


[hadoopélocalhost -]$[su - root Me 切换 为 root 用 户 


[PasswordE J- HA E re [n] 
East login: Thu E. Seeds TE rer 2014 on pts/2 
[rootélocalhost -]f[systemctl status firewalld.service 


[irewalld.service - firewalld - dynamic firewall daemon 


CU (EirewalId 
system.slice/fire 


表示 防 淡 境 处 于 运行 状态 


service 


lint: Some lines were ellipsized, use -l to show in full. 
[rootélocalhost -]# 
[rootélocalhost -]£[systemctl disable firewalld.service 
Im '/etc/systemd/system/di 
Imm '/etc/systemd/system/basic.target.wants/firewalld.service' 
[rootélocalhost -]f systemctl disable firewalld.service 
[rootélocalhost ~]# 


图 3.23 关闭 防火 墙 
(2) 设置 静态 IP 地 址 


查看 防火 墙 状态 
b/systemd/system/firewalld.service; enabled) 

since Wed 2014-12-24 22:52:07 EST; 1h 27min ago 

付 760 /usr/bin/python -Es /usr/sbin/firewalld --nofork --nopid 

[Dec 24 22:52:07 localhost.localdomain systemd[1]: Started firewalld - dynamic... 
关闭 防火 墙 命令 
.一 永久 关闭 防火 


bus-org.fedoraproject.FirewallDl.service' 


Q 


如 果 在 安装 系统 时 没有 配置 好 相应 的 IP, 就 需要 对 /etc/sysconfig/network-scripts/ 
ifcfg-enol6777736 文件 进行 配置 ,如 图 3. 24 所 示 。/etc/sysconfig/network-scripts/ 是 文 
TE Ho ,在 该 目录 下 存放 的 是 网 络 接口 的 控制 文件 ;ifcfg-eno16777736 是 指 当前 机 器 的 网 


络 接口 ,修改 完 后 可 以 通过 “ifconfig” 进 行 查看 。 具 体 的 操作 命令 行 如 下 。 


#vim /etc/sysconfig/network- scripts/ifcfg- eno16777136 


root8localhost ~]# 


pernoure-yes “网络 类 
IPV4 FAILURE FATAL-no 
IPV6INIT-yes 

IPV6 AUTOCONF-yes 
IPV6 DEFROUTE-yes 
IPV6 FAILURE FATAL-no . 

网 络 接口 名 《网 卡 ) 


aa-4eb0-a450-4e323c961bb5 


IPVé PEERDNS-yes 
IPV6 PEERROUTES-yes 


默认 网 关 地 址 
默认 DNS 地 址 


m 编辑 网 络 接口 ifcfg-eno1677736 的 控制 文件 


图 3.24 设置 当前 机 器 IP 地 址 


(3) 修改 主机 名 


在 本 实例 中 的 集群 规划 中 ,该 节点 的 主机 名 为 Masterl. Hadoop, 对 应 的 IP 地 址 为 
192. 168. 85. 100。 如 果 在 安装 系统 时 没有 修改 主机 名 ,可 通过 命令 行 的 方式 修改 主机 名 ， 
如 图 3.25 所 示 。 在 CentOS 中 ,有 三 种 定义 的 主机 名 : 静态 的 (Static)、 瞬 态 的 
(Transient) 和 灵活 的 (Pretty)。“ 静 态 ” 主 机 名 是 系统 在 启动 时 从 /etc/hostname 自动 初 
始 化 的 主机 名 六 瞬 态 ”主机 名 是 在 系统 运行 时 临时 分 配 的 主机 名 ,如 通过 DHCP 或 DNS 
服务 器 分 配 ;“ 灵 活 ” 主 机 名 则 人 允许 使 用 自由 形式 的 主机 名 ,以 展示 给 终端 用 户 。 本 实例 所 


使 用 的 主机 名 为 静态 主机 名 ,具体 的 操作 命令 行 如 下 。 
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shostnamectl status =-- 查 看 主机 名 相关 的 设置 
#hostnamect] set- hostname Master] .Hadoop =-- 主 机 名 设 为 :Masterl.Hadoap 


[rootélocalhost -]f 
Static hostname: 


lg 
Icon name: E 
Chassis: n/a 态 主机 名 
Machine ID: la3ba578e6b843ed9a0c8a915823a121 
Boot ID: 831292bclcf04de58cc099eb74a1b94b 
Virtualization: vmware 
Operating System: CentOS Linux 7 (Core) 
CPE OS Name: cpe:/o:centos:centos:7 
Kernel: Linux 3.10.0-123.e17.x86 64 
Architecture: x86 64 
[rootélocalhost ~]# [hb 
[root@localhost ~]# 


图 3.25 修改 主机 名 


注 : 在 修改 静态 / 瞬 态 主机 名 时 ,任何 特殊 字符 或 空白 字符 会 被 移 除 ,而 提供 的 参数 
中 的 任何 大 写字 母 会 自动 转化 为 小 写 。 一 旦 修改 了 静态 主机 名 ,/etc/hostname 将 被 自 
动 更 新 。 如 果 只 起 修改 特定 的 主机 名 (静态 . 瞬 态 或 灵活 ), TAI A “static”, 
“--transient” 或 “一 pretty” 选 项 。 

(4) 配置 hosts 文件 

/etc/hosts 文件 是 用 来 配置 DNS 服务 器 信息 ,即将 主机 名 与 IP 地 址 一 一 对 应 起 来 。 
当 用 户 在 进行 网 络 连 接 时 ,首先 查找 该 文件 ,再 寻找 对 应 主机 名 的 IP 地 址 。 如 果 没 有 配 
置 该 文件 ,可 以 ping 通 本 机 的 IP 地 址 , 却 无 法 ping 通 本 机 的 主机 名 。 具 体 的 操作 命令 
行 如 下 。 

#vim /etc/hosts - -编辑 hosts 文 件 

— — fE hosts 文 件 末尾 添加 集群 中 规划 的 Master 和 slave 主 机 及 对 应 的 IP Hb hi 

192.168.85.100 Masterl.Hadoogp 

192.168.85.101 Slavel.Hadoop 


192.168.85.102 Slave2.Hadocp 
192.168.85.103 Slave3.Hadocp 


3X FÉ Master 与 所 有 的 Slave 机 器 之 间 不 仅 可 以 通过 IP 进行 通信 ,而 且 还 可 以 通过 
主机 名 进行 通信 。 现 在 可 以 对 “Masterl. Hadoop” 主 机 名 进行 ping 通 测 试 ,如 果 hosts X 
件 配 置 成 功 , 则 可 以 测试 成 功 ,如 图 3. 26 所 示 。 


[rootemastezi -]$[Ping Masteri-Hadocp e mi 

ING Masterl.Hadoop (192.168.8 55 je 测试 Ring 吉 机 各。 

4 bytes from Masterl.Hadoop (192. HR 85.100): icmp seq-1 ttl-64 time-0.034 ms 
4 bytes from Masteri.Hadoop (192.168.85.100): icmp seq-2 ttl-64 time-0.040 ms 
4 bytes from Masterl.Hadoop (192.168.85.100): icmp seq-3 ttl-64 time-0.039 ms 
4 bytes from Masteri.Hadoop (192.168.85.100): icmp seq-4 ttl=64 time-0.043 ms 


c 


[rootémasteri -J# Mi ` ` _ ` 表示 配置 成 功 


3.26 配置 hosts 文 件 
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(5) 创建 Hadoop 用 户 

在 真实 的 集群 分 布 模式 下 ,要 求 集群 中 所 有 节点 使 用 相同 的 用 户 名 和 密码 ,并且 要 求 
在 所 有 节点 上 安装 的 Hadoop 系统 具有 完全 一 致 的 目录 结构 。 在 本 实例 中 的 集群 规划 
中 ,各 节点 的 用 户 名 和 密码 统一 规划 为 : hadoop。 如 果 在 安装 系统 时 没有 创建 Hadoop 
用 户 , 可 以 通过 命令 行 的 方式 进行 添加 ,具体 的 操作 命令 行 如 下 。 

Suseradd hadoop. -- Gg JH P1 4 29 badoop BJ) Hi JP 

#passwd hadoop 一 -为 用 户 hopi EE 


如 果 采 用 虚拟 机 的 方式 进行 网 络 配置 , VMware 提供 了 三 种 工作 模式 : 桥接 
(bridge)、 网 络 地 址 转换 (NAT) 和 主机 模式 (hostronly)。 在 桥接 模式 下 ,VMware 虚拟 出 
来 的 操作 系统 就 像 是 局 域 网 中 的 一 台独 立 主 机 , 它 可 以 访问 网 内 任何 一 台 机 器 ,该 模式 下 
虚拟 主机 的 TP 地 址 要 和 主机 IP 地 址 在 同一 网 段 ; 在 NAT 模式 下 ,虚拟 系统 的 TCP/IP 
配置 信息 是 由 VMnet8(NAT) 虚 拟 网 络 的 DHCP 服务 器 提供 的 ,无 法 进行 手工 修改 , 因 
此 虚拟 系统 也 就 无 法 和 本 局 域 网 中 的 其 他 真实 主机 进行 通信 ,采用 NAT 模式 最 大 的 优 
势 是 虚拟 系统 接 人 互联 网 非常 方便 ,不 需要 进行 任何 其 他 的 配置 ,只 需要 宿主 机 器 能 访问 
互联 网 即 可 (本 实例 就 是 采用 的 NAT 模式 ) ;在 主机 模式 下 ,所 有 的 虚拟 系统 可 以 相互 通 
信 , 但 虚拟 系统 和 真实 的 网 络 是 被 隔离 开 的 ,相当 于 宿主 机 器 和 虚拟 机 是 通过 双 绞 线 
互 连 。 

5) 安装 Java 运行 环境 

在 Hadoop 部 署 之 前 ,集群 上 所 有 节点 都 需要 安装 JDK 来 支撑 Java 运行 环境 (JDK 
版 本 的 选择 请 参考 表 3. 5)。CentOS 7 已 经 自 带 了 OpenJDK 1. 7 版 本 ,如 需要 另 安装 
JDK ,可 在 Oracle 官网 下 载 JDK 的 rpm 包 ( 此 类 包 的 JOK 可 直接 在 Linux 系统 中 安装 ， 
而 无 须 再 进行 其 他 配置 ) ,然后 在 CentOS 7 的 终端 执行 如 下 命令 : 


#ym - y remove java [jdk 文 件 名 ] -- H$ Centos 7 自 带 的 OpenrK4L.7 版 本 
#rem - ivh /OK 位 置 ]/[ODK 文 件 名 ].zpm 一 -安装 JEK, 默 认 安装 在 /usr/java/ 目 录 下 
#java - version 一 -验证 是 否 安装 成 功 


如 果 安 装 成 功 ,将 会 显示 当前 JDK 版 本 号 ,如 图 3. 27 Brom o 


JDKIR dua 1.7.0 71-b14) 


Java HotSpot(TM) 64-Bit Server VM (build 24.71-b01, mixed mode) 
[rootémasterl hadoop]f 


3.27 JDK 版 本 号 显示 


JDK 安装 成 功 之 后 ,下 一 步 将 要 配置 三 个 环境 变量 : PATH. CLASSPATH 和 
JAVA_HOME ,三 个 变量 的 设置 如 表 3. 8 所 示 。 
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表 3.8 三 个 变量 的 设置 
变量 名 变量 值 


指明 JDK 安装 路 径 ( 默 认 路 径 为 /usr/java/ 目 录 下 ) ,此 路 径 下 包括 lib,bin,jre 等 文 
JAVA HOME | 件 夹 ,JAVA_HOME 设置 为 : 
JAVA HOME- /usr/java/jdkl. 7.0 71 


使 得 系统 可 以 在 任何 路 径 下 识别 Java 命令 ,PATH 设置 为 : 


DE PATH= $PATH; $JAVA HOME/bin 
CLASSPATH 为 Java 加 载 类 路 径 , 只 有 类 在 CLASSPATH 中 ,Java 命令 才能 识 
别 ,CLASSPATH 设置 为 : 

CLASSPATH |.:$JAVA HOME/ire/lib/rt. jar: $ JAVA_HOME/lib/dt. jar: $ JAVA_HOME/ 


lib/tools. jar 


注意 : CLASSPATH 变量 是 以 “. :” 开 始 , 表 示 当 前 路 径 


修改 /etc/profile 文 件 ,将 JAVA_HOME、PATH 和 CLASSPATH 添加 到 profile fid 
置 文件 中 ,具体 执行 命令 如 下 。 

#vim /etc/profile 

export JAVA HOME- /usr/java/jdk1.7.0 71 

export CLASSPATH- .:$ JAVA HOME/jre/lib/rt.jar:$ JAVA HOME/lib/dt.jar:$ JAVA HOME/lib/tools.jar 

export PATH= $ PATH:$ JAVA HOME/bin 

source /etc/profile -- 立 即 生效 

#echo $ PATH -- 查 看 mmu HL [Ñ 


到 此 ,Java 运行 环境 就 安装 完毕 。 集 群 规划 中 的 Slavel. Hadoop、Slave2. Hadoop 和 
Slave3. Hadoop 节点 的 系统 配置 方法 同 Masterl. Hadoop 节点 的 系统 配置 方法 相同 ,在 
这 里 就 不 再 著述 。 

6) 配置 SSH 无 密码 登录 

默认 CentOS 已 经 安装 了 OpenSSH (即使 是 最 小 化 安装 ) ,这 里 就 不 介绍 OpenSSH 
的 安装 了 ,可 以 在 CentOS 7 的 终端 执行 如 下 命令 查看 ssh 和 rsync 服务 (rsync 是 一 个 远 
程 数 据 同 步 工 具 , 可 通过 LAN/WAN 快速 同步 多 台 主 机 间 的 文件 ) 。 


$m- ga | grep qensh - -检查 是 否 安装 openssh 
Š rm - qa | grep rsync -- 查 看 rsync 
$ systemlctl status sshd.service -- 查 看 ssh 服 务 状态 


如 果 没 有 安装 ssh 和 rsync 服务 ,可 以 通过 下 面 的 命令 进行 安装 。 


yum install ssh -- 安 装 SsH 协 议 
yum install rsync -安装 rsync 
systemct] enable sshd.service =-- 开 机 启动 ssha 服 务 


如 果 服 务 启动 成 功 ,请 查看 如 图 3. 28 所 示 的 结果 。 
执行 ssh-keygen 命令 生成 密 钥 文件 ,输入 “ssh-keygen -t rsa -P "-f 一 /. ssh/id rsa". 


QC ,) sxsüxum 


[hadoop&masterl -]$ systemctl status sshd.service 
[sshd.service - OpenSSH server daemon 
Loa ded (/usr/lib/systemd/system/sshd.service; enabled) 
since Thu 2014-12-25 20:11:50 EST; 1h 54min ago 


usr/sbin/sshd-keygen (code-exited, status-0/SUCCES 
P HR mz 
Main PID: 1097 (sshd) 表示 服务 已 启动 


CGroup: /system.slice/sshd.service 
411097 /usr/sbin/sshd -D 


3.28 ssh 服务 启动 成 功 


Process: ExecStartP. 


其 中 -t、-P、-f 参数 区 分 大 小 写 ,ssh-keygen 是 生成 密 钥 命令 ;-t 表示 指定 生成 的 密 钥 类 型 
(dsa,rsa); -P 表示 提供 的 密语 ;-f{ 指定 生成 的 密 钥 文件 ;一 代表 当前 用 户 的 文件 夹 , 即 
为 /home/ 用 户 名 。 执 行 此 命令 后 ,将 会 在 “\home\ 用 户 名 "路径 下 面 生成 . ssh 文件 夹 (可 
通过 命令 “ls -a /home/ 用 户 名 ?查看 ,本 实例 为 “ls -a /home/hadoop”) 。 

在 Masterl. Hadoop 节点 终端 执行 的 具体 命令 如 下 。 


#su hadpop — -切换 到 hap HA 
=-- 生 成 密码 对 , /hame/hadoop/ .ssh/id rsa 和 /hame/hadoop/ .ssh/id rsa.pub 
$ ssh- keygen -t rsa -P '' — f ~ /.ssh/id rsa 


=-- 把 id rsa.pub 追 加 到 授权 的 key 里 面 去 
$ cat ~ /.ssh/id rsa.pub >>~ /.ssh/authorized keys 
$ chmod 600 ~ /.ssh/authorized keys -= -修改 权限 
$ su- root. -切换 到 root Jf] P 
#vim /etc/ssh/sshd config -= 修改 ssh 配 置 文件 
FSMithentication yes # 启 用 RSA 认 证 
Pubkeymuthentication yes # 启 用 公 钥 私 钥 配对 认证 方式 
RathorizedKeysFile .ssh/authorized keys # 公 钥 文件 路 径 
#su hadocp -切换 到 hadoqp 用 户 

=-- 把 公 钥 复制 所 有 的 slave 机 器 上 


$ scp ~ /.ssh/id rsa.pub hadocp8 192.168.85.101:~ / 
$ scp ~ /.ssh/id rsa.pub hadocp8 192.168.85.102:~ / 
$ scp = /.ssh/id rsa.pub hadocp8 192.169.85.103:- / 


生成 的 密 钥 信息 如 图 3. 29 所 示 。 


fadoopimasterl ~] 
Generating public/private rsa key pair. M 生成 密 钥 命令 
Created directory '/home/hadoop/.ssh'. i 
cur identification has been saved in /home/hadoop/.ssh/id rsa. 
our public key has been saved in /home/hadoop/.ssh/id rsa.pub. 
he key fingerprint is: 
B9:84:39:£3:b4:db:aa:eb:cd:c5:41:99:72:38:32:e6 hadoop&masterl.hadoop 
he key's randomart image is: 
--[ RSA 2048]----* 

I 


生成 的 密 钥 信息 


图 3.29 生成 密 钥 
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在 所 有 Slave 节点 终端 执行 的 具体 命令 如 下 。 


#su hadbap -切换 到 hap HA 

Smkdir ~ /-ssh 

$ chmod 700 ~ /.ssh 

$ cat ~ /id rsa.pib >>~ /.sst/anthorized keys =-- 追 加 到 授权 文件 "athorized keys" 
$ chmod 600 ~ /.ssh/authorized keys 一- 修改 权限 

$su =-- 切 换 回 root 用户 

#vim /etc/ssh/sshd config =-- 修 改 ssh 配 置 文件 
FSMwithentication yes -- 启 用 RSA 认 证 
PubkeyAuthentication yes =-- 启 用 公 钥 私 钥 配 对 认证 方式 
AuthorizedKeysFile .ssh/authorized keys -- 公 钥 文 件 路 径 


再 在 Master 节点 终端 重启 SSH 服务 ,并 验证 Masterl. Hadoop 到 Slavel. Hadoop、 
Slave2. Hadoop、Slave3. Hadoop 之 间 的 SSH 无 密码 登录 : 


#systemct1 restart sshd.service - -重启 ssH 服 务 

#su hadbop -- 切 换 回 hadocp H P: 

$ ssh Slavel.Hacbop --Slavel.Hadoo 的 ssH 无 密码 验证 
$ ssh Slave? .Hacbop - - Slave. Hadoop fff] ssH 无 密码 验证 
$ ssh Slave3.Hacbop. --Slave3.Hadoo 的 ssH 无 密码 验证 


这 样 就 实现 了 从 Masterl. Hadoop 到 Slavel. Hadoop、Slave2. Hadoop、Slave3. 
Hadoop 的 无 密码 登录 ,登录 成 功 ,将 出 现 如 图 3. 30 所 示 的 结果 。 如 果 要 配置 所 有 Slave 
节点 无 密码 登录 Master 节点 ,和 Master 无 密码 登录 所 有 Slave 节点 原理 一 样 ,这 里 不 再 
GA. 


退出 Slavel.Hadoop 


Connection to slavel.hadoop closed. 


[hadoop@master1 ~]$ [ssh slave2.hadoop 
8 21:36:21 


Last login: Sun Dec OR4 from masterl.hadoop 
[hadocpéSlave2 -]$ exit Slave2.Hadoop 5 =, 
logout "s 
Connection to slave2.hadoop closed. Slave3.Hadoop í S, 


[hadoopémasteri -]$ 


Last login: Sun Dec 


rom masterl.hadoop 


3.30 SSH 无 密码 登录 成 功 界面 


注 : 如 果 使 用 虚拟 机 方式 ,可 在 Windows 系统 下 安装 SSH Secure Shell 软件 ,该 软 
件 可 用 来 连接 远程 Linux 服务 器 或 者 虚拟 机 中 的 Linux 操作 系统 。 其 中 ,Secure Shell 相 
当 于 控制 台 ,SSH Secure File Transfer Client 则 可 以 方便 快捷 地 在 Windows 和 Linux 操 
作 系 统 之 间 传 输 文件 。 
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362 Hadoop 部 署 


Hadoop 部 署 方式 有 三 种 : 单机 模式 、 伪 分 布 模式 和 全 分 布 模式 。 在 单机 模式 下 (在 
一 台 运 行 Linux 或 Windows 下 虚拟 Linux 的 单机 上 安装 运行 Hadoop 系统 ) ,无 须 运 行 
任何 守护 进程 ,所 有 程序 都 在 单个 JVM 上 执行 ,在 该 模式 下 测试 和 调试 MapReduce 程序 
较为 方便 ,因此 ,这 种 模式 适宜 用 在 开发 阶段 ;在 伪 分 布 模式 下 (在 一 台 运 行 Linux 或 
Windows 下 虚拟 Linux 的 单机 上 ) ,用 不 同 的 Java 进程 模拟 分 布 运行 中 的 NameNode、 
DataNode,JobTracker, TaskTracker 等 各 类 节点 ,模拟 一 个 小 规模 的 集群 ;在 全 分 布 模式 
下 (在 一 个 真实 的 集群 环境 下 安装 运行 Hadoop 系统 ,集群 的 每 个 节点 可 以 运行 Linux 或 
Windows 下 的 虚拟 Linux). Hadoop 守护 进程 运行 在 一 个 集群 上 。 在 单机 和 伪 分 布 模式 
下 编写 完成 的 程序 不 需 修 改 即 可 在 真实 的 分 布 式 Hadoop 集群 下 运行 ,但 通常 需要 修改 
配置 。 

本 实例 将 采用 全 分 布 模式 进行 Hadoop 部 署 ,因为 这 种 方式 更 有 利于 读者 深入 理解 
Hadoop 体系 构架 。 所 有 的 机 器 上 都 需要 安装 Hadoop, 现 在 就 先 在 Masterl. Hadoop f 
点 进行 Hadoop 安装 ,然后 其 他 服务 器 按照 步骤 重复 进行 即 可 。 安 装配 置 Hadoop 需要 
以 “root” 用 户 身 份 进行 ,具体 安装 配置 过 程 如 下 。 


1. 安装 Hadoop 


在 Hadoop Ë W ( http: //hadoop. apache. org/releases. html) 下 载 相 应 版 本 的 
Hadoop ,下载 完 成 后 解压 到 CentOS 系统 的 /opt/ 目 录 下 并 进行 一 些 基 础 配置 ,具体 命令 


Wr. 
#tar - zxvf hadogo- 2.6.0 -- 解 压 Hadoop 安 装 文件 
jp hadocp- 2.6.0 /apt/hadoop- 2.6.0 - -#5 hadoop- 2.6.0 S "/opt/"E 3: F 


- -JE "/apt/Hadocp- 2.6.0" 读 权限 分 配给 hadoop JH P: 
#chown - R hadoop:hadocp /apt/hadoop- 2.6.0 
#vi /etc/profile 一 -把 Hadoop 安 装 路 径 添 加 到 配置 文件 profile rh 
export HADOOP HOME- /opt/hadoop- 2.6.0 
export PATH= $ PATH:$ HADOOP HOMEVbin 


#su hadbop 一 -切换 为 hadoqp 用 户 

$ od /apt/hadoop- 2.6.0 

$mkdir -p dfs/name — TE " /apt/Hadoop- 2.6.0" 目 录 下 创建 "/dfs/name" 目 录 
$nkdir -p dfs/data — -FE "/opt/Hacocp- 2.6.0" 目 录 下 创建 "dfs/data" 目 录 
$mkdir -p tmp — ÉE " /apt/Badoop- 2.6.0"H 3i F 8] f "/ats/tmo"H 3€ 


所 有 的 Master 节点 和 Slave 节点 都 进行 上 述 操作 后 ,Hadoop 系统 就 安装 成 功 了 ,下 
一 步 将 要 配置 Hadoop 集群 。 


2. 配置 Hadoop 


Hadoop 的 配置 文件 根据 版 本 的 不 同 , 配 置 的 文件 也 不 同 。Hadoop 1. 0 生态 系统 的 
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配置 文件 是 放 在 $ HADOOP_HOME/conf 目录 下 ,关键 的 配置 文件 在 src 目录 都 有 对 应 
的 存放 着 默认 值 的 文件 ,如 表 3.9 所 示 。 


表 3.9 Hadoop 1.0 生态 系统 配置 文件 


配置 文件 默认 值 配置 文件 
$ HADOOP_HOME/conf/core-site. xml $ HADOOP HOME/src/core/core-default. xml 
$ HADOOP HOMEJ/ conf/hdfs-site. xml $ HADOOP HOMEJ/src/ hdfs/hdfs-default. xml 
$ HADOOP HOME/ coníf/mapred-site. xml | $ HADOOP. HOME/src/mapred/mapred-default. xml 


从 表 3.9 可 以 看 出 ,Hadoop 1.0 生态 系统 主要 是 对 core-site. xml, hdfs-site. xml 和 
mapred-site. xml 文件 的 配置 。 到 Hadoop 2. 0 生态 系统 时 ,Hadoop 架构 发 生 了 变化 ,而 
配置 文件 的 路 径 和 配置 内 容 也 相应 发 生 了 变化 ,其 中 配置 文件 目录 变 为 $ HADOOP_ 
HOME/etc/hadoop 目录 ,主要 配置 文件 包括 hadoop-env. sh, yarn-env. sh, core-site. 
xml、hdfs-site. xml, mapred-site. xml 和 yarn-site. xml。 本 实例 使 用 Hadoop 2. 6 版 本 ,以 
该 版 本 为 例 介 绍 需 要 配置 的 文件 及 配置 内 容 。 具 体 的 配置 过 程 如 下 。 

1) 配置 所 有 Slave 节点 

该 配置 文件 在 /opt/hadoop-2. 6. 0/etc/hadoop/ 目 录 下 的 slaves 文件 ,每 行 只 添加 一 
个 Slave 主机 名 ,具体 命令 如 下 。 


#vim /opt/hadoop- 2.6.0/etc/hadoop/slaves 
Slavel.Hadoop 
Slave2.Hadoop 
Slave3.Hadoop 


2) 配置 hadoop-env. sh 和 yarn-env. sh 

hadoop-env. sh 和 yarn-env. sh 主要 用 于 设置 RescoureManager 等 所 需要 的 环境 变 
量 ,主要 需要 修改 JAVA_HOME, 即 将 JDK 的 安装 目录 添加 到 这 两 个 文件 中 。 这 两 个 配 
置 文件 均 在 /opt/hadoop-2. 6. 0/etc/hadoop/ 目 录 下 。 本 实例 JDK 的 安装 目录 为 /usr/ 
java/jdkl. 7. 0_71, 然 后 将 环境 变量 加 入 hadoop-en. sh 和 yarn-env. sh 文件 中 ,具体 命令 
如 下 。 


$ env|grep JAVA HOME -检查 是 否 配 置 JAVA HOME 
$su - root -- 切 换 roct 用 户 

#vim /opt/hadocp- 2.6.0/etc/hadoxp/hadoop- env.sh -添加 Java Hoe 

export JAVA HOMe- /usr/java/jdkl.7.0 71 

#vim /opt/hadocp- 2.6.0/etc/hadoxp/yam- env.sh -添加 Java Hove 


export JAVA HOMe- /usr/java/jdkl.7.0 71 


3) 配置 core-site. xml 文件 
该 文件 是 全 局 配置 ,主要 配置 的 是 HDFS 的 地 址 、 端 口号 (有 关 Hadoop 默认 端口 号 
请 查看 附 表 1) 和 hadoop. tmp. dir 参数 。 如 果 没 有 配置 hadoop. tmp. dir 参数 ,系统 将 默 


QC, 车 HR 


认 一 个 临时 目录 。core-site. xml 的 主要 配置 参数 如 表 3.10 所 示 。 
表 3.10 core-site. xml 主要 配置 参数 


参数 E 认 值 # xk 
fs. defaultFS 0.0.0. 0:9000 hdfs: / /localhost: port/ 
io. file. buffer. size 131072 读 写 缓冲 区 大 小 
hadoop. tmp. dir /tmp/hadoop- $ ( user. name) 临时 目录 


core-site. xml 文件 具体 配置 内 容 如 下 。 


< /property» 


< name» hadoop. trp.di r« /name> 
< value» file: /apt/hadoop- 2.6.0/tm« /value» 
< /property» 
«property» 
< name» hadocp.proxyuser.hadocp.hosts« /name> 
«value» < /value» 


< name» hadoop. proxyuser.hadoop.groups« /name» 
«value» < /value» 
< /prcperty» 
< /onfiguration> 


4) BUR hdfs-site. xml 文件 
该 文件 主要 配置 数据 副本 保存 份 数 ,以 及 namenode, secondarynamenode 和 
datanode 数据 保存 路 径 以 及 http-address 等 。hdfs-site. xml 的 主要 配置 参数 如 表 3. 11 
所 示 。 
表 3.11 hdfs-site. xml 主要 配置 参数 
9? # ER À 值 描 述 


$ (hadoop. tmp. dir) / | 表示 NameNode 存储 命名 空间 和 操作 日 志 相 关 
dfs/name 的 元 数据 信息 的 本 地 文件 系统 目录 


dfs. namenode. name. dir 
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Dri 
参 数 R 认 值 描 述 
dís, datanode. data. di $ (hadoop. tmp. dir)/ | 表示 DataNode 节点 存储 HDFS 文件 的 本 地 文 
s. datanode. data. dir dís/data 件 系统 目录 
dfs. replication 3 指定 block 的 副本 数 
dis;namenode Seeondorys ao dG onoj 表示 SecondNameNode 主机 及 端口 号 
http-address 
dfs. webhdfs. enabled true 开启 WebHDFS 


hdfs-site. xml 文件 具体 配置 内 容 如 下 。 


< nane dfs.namenode .name .di rx /name> 
« value» file: /opt/hadoop- 2.6.0/dfs/name« /value> 
< property» 
«property» 
< name» dfs.datanode..data.dir« /name> 
< value» file: /apt/hadoop- 2.6.0/dfs/data« /value» 
< /property» 


< name» dfs.namenode. secondary .http- address« /name» 
< value» master] .hadoop: 9001« /value» 
< /property» 


5) 配置 mapred-site. xml 文件 
该 文件 主要 配置 使 用 Yarn 计算 框架 和 Jobhistory 地 址 等 。mapred-site. xml 的 主要 
配置 参数 如 表 3.12 所 示 。 
表 3.12 mapred-site. xml 主要 配置 参数 
参数 默认 值 描 g 


执行 MapReduce 任务 所 使 用 的 运行 
框架 


mapreduce. framework. name local 


C 2 sxuxun 


Er 


2 "u 


默认 值 


描 g 


mapreduce. jobhistory. address 


0. 0. 0.0:10020 


配置 jobhistory 地 址 


mapreduce. jobhistory. webapp. address 


0. 0. 0.0:19888 


配置 Jobhistory Server Web UI 地 址 


mapred-site. xml 文件 具体 的 配置 内 容 如 下 。 


#cp mapred- site.xml .template mapred- site.xml 


< oonfiguration> 


< /property> 


< value» master] .hadoop:19888< /value> 


< /property> 
< /configuration> 


6) 配置 yarn-site. xml 文件 


该 文件 主要 配置 ResourceManager 地 址 及 yarn. application. classpath 等 。yarn- 
site. xml 的 主要 配置 参数 如 表 3. 13 所 示 。 
表 3.13 yarn-site. xml 主要 配置 参数 


# k 


m 认 值 


描 g 


yarn. nodemanager. aux-services 


mapreduce shuffle 


表示 MR Applicatons 所 使 用 
的 shuffle 工 具 类 


yarn. nodemanager. auxservices. 


shuffle. class 


mapreduce. 


org. apache. hadoop. 
mapred. ShuffleHandler 


配置 mapreduce. shuffle 


客户 端 对 Resource Manager 主 


arn. resourcemanager. address 0.0.0.0:8032 š 
: T 机 通过 host: port 提交 作业 
ApplicationMasters — 3B — 过 
Resource Manager 主机 访问 
arn. resourcemanager. scheduler. address 0.0. 0. 0:8030 : 
i s host: port 跟踪 调度 程序 获取 
资源 
Node Managers 通过 Resource 
arn. resourcemanager, resource-tracker. address 0.0.0.0:8031 R. 
? j Manager 主机 访问 host:port 
令 通 过 Reso 
yarn. resourcemanager. admin. address 0. 0. 0. 0:8033 H4 S W L Rowe 


Manager 主机 访问 host: port 


— OBHR Erie OOS 


续 表 
2 # EK OW 值 描 述 
yarn. resourcemanager. webapp. address 0. 0. 0. 0:8088 Web e 
yarn. nodemanager. resource. memory-mb 8192 N. Manage PI NAS 


yarn-site. xml 文件 具体 配置 内 容 如 下 。 


(9, sxxuxum 


在 Masterl. Hadoop 节点 安装 并 配置 好 Hadoop 之 后 ,可 通过 “scp -r /opt/hadoop 
root@ 服 务 器 IP:/opt/” 将 Masterl. Hadoop 上 配置 好 的 hadoop 所 在 文件 夹 复 制 到 所 有 
的 Slave 的 /opt/ 目 录 下 。 然 后 在 各 自 机 器 上 将 hadoop 文件 夹 权 限 赋予 各 自 的 hadoop 
用 户 ,并 且 配 置 好 环境 变量 等 ,这 里 不 再 袭 述 。 

7) 启动 Hadoop 

启动 Hadoop 之 前 , 先 要 格式 化 HDFS 文件 系统 ,在 Masterl. Hadoop 节点 上 使 用 
hadoop 用 户 进 行 操作 ,具体 的 命令 如 下 。 


Š hadoop namenode - format: =-- 格 式 化 BDES 文 件 系统 


当 出 现 如 图 3. 31 所 示 的 提示 信息 时 ,表示 HDFS 文件 系统 格式 化 成 功 ( 只 需 格式 化 
一 次 ,下 次 启动 就 不 用 再 格式 化 )。 


15/02/02 20:05:00 INFO util.ExitUtil: 
15/02/02 20:05:00 INFO namenode.NameNode: SHUTDOWN MSG™ 


SHUTDOWN MSG: Shutting down NameNode at masterl.hadoop/192.168. as. 100 


P — ———— 


3.31 HDFS 文 件 系 统 格式 化 成 功 


HDFS 文件 系统 格式 化 成 功 后 ,就 可 以 启动 Hadoop 了 (在 启动 前 要 确认 集群 中 所 有 
机 器 的 防火 墙 处 于 关闭 状态 ) ,具体 的 命令 如 下 。 


$start- all.sh -启动 Hadoop 


start-all. sh 命令 等 同 于 start-dfs. sh 和 start-yarn. sh 命令 ,将 启动 DataNode, 
NameNode,SecondaryNameNode fll NodeManager 角色 ,执行 结果 如 图 3. 32 所 示 。 


Tis E art dfa, on]anda [szart-yarn.sh] 


hadoop] 


ogg: .6.011oga/ hat 
r| logging t= /ept/hadoop-2.6.0/logs/yarn-hadoop-nodenanager Hlave2 Hadoop ct 


图 3.32 成 功 启动 Hadoop 


Hadoop 是 否 启动 成 功 可 以 在 终端 输入 “jps” 命 令 查 看 进程 进行 验证 ,如 图 3. 33 所 示 
查看 Masterl. Hadoop 和 Slavel. Hadoop 运行 的 进程 。 


[hadoopraster1] afs]$ jps [hadoopdslavei]-1$ ips 
849 d B097 DataNode 
{18708 SecondaryNameNode| 681 Jps 


[.8911 ResourceManager 


(a) Master1.Hadoop 运 行 的 进程 (b) Slave1.Hadoop 运 行 的 进程 
图 3. 33 Master 节点 和 Slave 节点 运行 进程 
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从 图 3.33 可 以 看 出 ,Masterl. Hadoop 为 NameNode 节点 ,运行 的 进程 有 NameNode、 
SecondaryNameNode 和 ResourceManager 进程 ;Slavel. Hadoop 为 Slave 节点 ,运行 的 进程 有 
DataNode 和 NodeManager 进程 (集群 规划 参考 表 3.7). 

注 : Hadoop 2.6.0 具有 NodeManager Restart 功能 ,这 个 功能 可 以 使 NodeManager 
在 不 丢失 运行 在 节点 中 的 活动 的 container 的 情况 下 重新 启动 。 如 果 在 Slave 节点 没有 
看 到 NodeManager 节点 ,很 有 可 能 是 NodeManager Restart 功能 在 起 作用 。 

Hadoop 的 验证 也 可 以 在 浏览 器 地 址 栏 中 输入 “http://192. 168. 85. 100:8088/ ”查看 


集群 信息 ,如 图 3. 34 所 示 。 


Ele Edt View History Bookmarks Tools Help 


国 


E} About the Cluster 


About the Cluster - Mozilla Firefox 


[| 


Qi | & 192.168.85.100 8088/cluster/cluster 


> @| 图 coge a 4 à 


GEBRE 


About the Clusti 


Hadoop version: 


~ Cluster Cluster Metrics 
About Apps | Apps ^ Apps | Apps Containers Memory Memory | Memory VCores VCor 
Nodos Submitted Pending Running Completed Running Used Total Reseved Used Teti 
Apaleations ° ° ° ° 0 oB — 0B oB o ° 
new 
NEW. savine 
I Cluster ID: 1419990465352 
Ei ul ResourceManager state; STARTED. 
Era ResourceManager HA state: active 
EALED ResourceManager orgapache hadoop yam.serverresourcemanager.recovery NUIRMSU 
KILLED RMStatestore: 
Schadular ResourceManager started on: 30-Dec-2014 20:47:45. 
ResourceManager version: 2.60 from e3496499ecb8d220fba99dc5ed4c99c8f9e33bb1 by jeni 
+ Tools 2014111372172 


2.6.0 from e3495499cco8d220fba99dc5edác99c8f9c33bb1 by jeni 
2014211-13721.102 


图 3.34 Hadoop 集群 信息 


注 : 有 关 core-site. xml, hdfs-site. xml, 


mapred-site. xml 和 yarn-site. xml 配置 文件 


的 默认 参考 配置 请 查看 本 书 配套 资料 中 Demo/Configuration Default x # £ T 65 core- 
default. xml, hdfs-default. xml, mapred-default. xml 和 yarn-default. xml 配置 文件 。 


A DETIENE 分 布 式 文件 系统 urs 


Hadoop 分 布 式 文件 系统 HFS 是 基于 Hadoop 大 数据 生态 系统 的 底层 核心 ,通过 HFS R SE 
现 对 分 布 式 存储 的 底层 支持 。 本 章 将 介绍 分 布 式 文件 系统 HFS 的 主要 特性 、 体 系 架构 \ 存 
储 原理 等 内 容 。 


4.1 HDFS 概述 


分 布 式 文件 系统 (Distributed File System,DFS) 是 指 文件 系统 管理 的 物理 资源 不 一 
定 存储 在 本 地 节点 上 ,而 是 通过 计算 机 网 络 与 本 地 节点 相连 。Hadoop 作为 一 个 分 布 式 
开源 框架 ,引入 了 虚拟 文件 系统 机 制 , 并 提供 了 一 个 文件 系统 抽象 类 (org. apache. 
hadoop. fs. FileSystem)。 这 个 抽象 类 提供 了 对 多 种 分 布 式 文件 系统 的 支持 ,如 对 
Hadoop 本 身 的 分 布 式 文件 系统 HDFS 的 支持 以 及 对 Amazon S3 分 布 式 文件 系统 的 支 
持 。 对 于 分 布 式 文件 系统 的 选择 要 根据 具体 的 业务 场景 来 决定 。HDFS 的 设计 目标 是 为 
了 存储 超大 数据 文件 ,而且 提供 了 对 数据 的 流 式 访问 接口 ,适用 于 大 规模 数据 处 理 。 本 节 
将 对 Hadoop 分 布 式 文件 系统 HDFS 进行 重点 介绍 。 

Hadoop 分 布 式 文件 系统 (Hadoop Distributed File System, HDFS) 是 Hadoop 项 目 
的 核心 子 项 目 , 是 基于 流 数据 模式 访问 和 处 理 超大 文件 的 需求 而 设计 开发 的 ,运行 在 通用 
硬件 上 ,具有 高 容错 性 和 高 吞吐 量 , 非 常 适合 大 规模 数据 集 的 分 布 式 文件 系统 。 它 的 开发 
和 实现 遵循 了 Google 文件 系统 (GFS) 的 核心 原理 ,并 得 到 业界 的 极 大 关注 和 广泛 应 用 ， 
现在 已 经 成 为 海量 数据 存储 的 事实 标准 。 它 的 主要 特点 如 下 。 


1. 硬件 故障 为 常态 现象 


HDFS 部 署 在 由 普通 商用 机 器 组 成 的 集群 中 ,集群 可 能 包含 成 百 上 千 个 机 器 节点 ,每 
个 服务 器 节点 上 都 存储 着 文件 系统 的 部 分 数据 ,而 节点 故障 是 不 可 避免 的 。 因 此 ,HDFS 
认为 硬件 故障 为 常态 现象 ,并 具有 错误 检测 和 快速 、 自 动 的 恢复 功能 ,即使 某 些 节 点 发 生 
故障 时 ,整个 集群 的 工作 也 不 会 受到 影响 。 


2. HDFS 支持 超大 规模 的 数据 集 


运行 在 HDFS 上 的 应 用 具有 很 大 的 数据 集 , 典 型 文件 大 小 从 几 十 GB 到 几 TB, 整 个 
HDFS 文件 系统 的 数据 量 可 以 达到 几 十 PB。 因此 ,HDFS 被 设计 为 支持 大 文件 存储 ,而 


wax asxiexsues Go 


且 通 过 Yahoo 的 实验 验证 ,HDFS 可 以 支持 几 千 个 节点 组 成 的 集群 ,支持 千 万 个 数据 
文件 。 


3. 简单 的 一 致 性 模型 


HDFS 简化 了 传统 的 文件 访问 模型 , 它 假定 当 一 个 文件 被 创建 、 写 入 并 关闭 后 就 不 会 
再 修改 。 这 种 文件 访问 模型 为 “简单 的 一 致 性 ?模型 , 即 一 次 写 人 多 次 读 取 的 文件 访问 模 
型 。 这 种 模型 很 容易 处 理 数 据 的 一 致 性 问题 ,并 大 大 提高 了 数据 访问 的 吞吐 量 。 


4. 流 式 数 据 访问 


HDFS 提供 了 类 似 于 流 式 的 数据 访问 模式 , HDFS 中 节点 之 间 的 数据 传输 和 访问 的 
重点 并 不 是 数据 访问 的 反应 时 间 ,而 是 数据 吞吐 量 。 因 此 ,HDFS 的 设计 更 多 考虑 到 了 数 
据 的 批量 处 理 ,而 不 是 用 户 的 交互 处 理 , 节 点 将 数据 以 较 小 的 数据 包 形式 进行 传输 ,从 而 
提高 了 数据 访问 的 吞吐 量 , 有 效 避 免 了 由 于 大 量 数 据 同 时 出 现在 信道 上 所 造成 的 网 络 阻 
塞 ,也 便于 本 地 文件 系统 处 理 数据 。 


s. 高 度 容错 性 


HDFS 提供 了 很 强 的 容错 处 理 能 力 ,将 文件 系统 故障 (服务 器 、 网 络 、 存 储 故障 等 ) 视 
为 常态 。HDFS 将 大 文件 分 割 成 很 多 文件 块 分 开 存储 ,并 采用 了 完全 备份 的 策略 ,每 个 文 
件 块 的 备份 数量 默认 为 三 个 ,一 旦 发 生 数据 校 验 错误 将 重新 进行 复制 。 这 种 备份 策略 ,不 
仅 保 证 了 数据 的 完整 性 ,而 且 也 使 用 户 能 够 就 近 访 问 数据 ,缩短 了 数据 的 传输 时 间 。 


6. 高 可 扩展 性 


HDFS 将 文件 的 数据 块 分 配 信息 存储 在 NameNode 节点 上 ,文件 数据 块 信息 分 布 在 
DataNode 节点 上 , 当 整 个 系统 容量 需要 扩充 时 ,只 需要 动态 地 增加 DataNode 节点 数据 ， 
HDFS 将 会 自动 地 实时 将 新 的 DataNode 节点 信息 加 入 到 NameNode 之 中 ,整个 过 程 不 
会 对 系统 的 稳定 性 和 用 户 的 使 用 造成 影响 。 


7. 平台 移植 性 


HDFS 在 设计 时 就 考虑 到 了 平台 的 可 移植 性 。 因 此 ,HDFS 采用 Java 语言 开发 , 具 
有 良好 的 平台 移植 性 , 它 不 仅 可 以 运行 在 Linux, Windows 等 操作 系统 上 ,而 且 可 以 方便 
地 从 一 个 平台 移植 到 另 一 个 平台 。 这 种 特性 方便 了 HDFS 作为 大 规模 数据 应 用 平台 
推广 。 

HDFS 也 并 不 是 通用 的 分 布 式 文件 系统 ,在 处 理 一 些 特定 问题 时 ,不 但 没有 优势 ,而 
且 有 一 定 的 局 限 性 ,主要 局 限 性 体现 在 以 下 几 个 方面 。 

1) 低 延 迟 数据 访问 

HDFS 设计 之 初 的 目的 主要 是 为 了 达到 较 高 的 数据 吞吐 量 , 这 是 以 高 延迟 为 代价 的 。 
因此 , HDFS 不 适用 于 处 理 对 数据 访问 要 求 低 延 迟 的 场景 。 对 于 这 种 情况 ,可 以 通过 上 
层 的 数据 管理 工具 来 尽 可 能 地 弥补 不 足 ( 如 使 用 HBase) ,或 者 使 用 缓存 、 多 Master 设计 
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也 可 以 降低 客户 端的 数据 请 求 压力 ,从 而 减少 延 时 。 

2) 存储 大 量 小 文件 

HDFS 中 每 个 文件 都 要 在 NameNode 中 记录 其 实际 存储 位 置 , 即 元 数据 (文件 的 基 
本 信息 ) ,并 且 为 了 提高 读 取 速 度 ,元 数据 存储 在 NameNode 的 内 存 中 ,所 以 文件 系统 所 
能 容纳 的 文件 数目 是 由 NameNode 的 内 存 大 小 来 决定 。 一 般 来 说 ,每 一 个 文件 .文件 夹 
和 Block 需要 占据 150B 左右 的 空间 (100 万 个 文件 就 需要 300MB 空间 ) ,如 果 小 文件 太 
多 可 能 使 元 数据 信息 过 大 ,导致 NameNode 内 存 无 法 容纳 所 有 元 数据 。 因 此 ,HDFS 并 
不 适合 存储 大 量 小 文件 。 对 于 这 种 情况 ,可 以 利用 SequenceFile、MapFile、Har 等 方式 归 
档 小 文件 ,或 者 采用 多 Master 设计 的 方式 来 解决 。 

3) 多 用 户 写 人 或 修改 文件 

在 HDFS 中 的 文件 中 只 有 一 个 写 入 者 ,而 且 写 操作 只 能 将 数据 添加 在 文件 的 末尾 ， 
即 只 能 执行 追加 操作 。 因 此 ,HDFS 还 不 支持 多 个 用 户 对 同一 文件 的 写 操作 ,以 及 在 文件 
任意 位 置 进 行 修改 。 

因此 ,HDFS 适用 于 存储 数据 量 巨 大 ,存储 的 单个 文件 也 大 (GB/TB 级 别 ) ,数据 处 理 
以 流 式 读 为 主 ,对 数据 访问 并 不 要 求 低 延迟 ,追求 数据 访问 的 高 吞吐 量 ,而 且 对 硬件 故障 
有 一 定 容忍 度 的 场景 中 。 


4.2 HDFS 基本 组 成 


HDFS 主要 有 数据 块 (Block) .数据 节点 (DataNode) 、 元 数据 节点 (NameNode) 和 辅 
助 元 数据 节点 (SecondaryNameNode) 等 几 个 重要 的 组 成 部 分 。 只 有 正确 理解 每 一 部 分 
在 HDFS 中 的 角色 ,才能 更 深刻 地 理解 HDFS。 
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传统 文件 系统 是 基于 存储 块 进行 操作 的 ,HDFS 也 使 用 了 块 的 概念 ,因此 ,HDFS 默 
认 的 最 基本 的 存储 单位 是 数据 块 (一 般 为 64MB 或 128MB 的 数据 块 )。HDFS 使 用 块 作 
为 存储 和 操作 单元 所 带 来 的 好 处 如 下 。 

CD 大 大 简化 存储 子 系统 的 设计 ; 

(2) 更 有 利于 分 布 式 文件 系统 中 数据 容错 能 力 和 可 用 性 的 实现 ; 

(3) 对 于 存储 任意 大 的 文件 不 受 任 一 单个 节点 磁盘 大 小 的 限制 ; 

(4) 块 集中 存储 减少 磁盘 寻 道 次 数 , 进 而 减少 了 寻 道 时 间 ; 

(5) 数据 以 块 方式 存储 有 更 高 的 安全 性 。 

HDFS 将 一 个 文件 以 块 为 单位 在 集群 服务 器 上 分 配 存储 ,而 且 每 个 块 都 有 一 个 自己 
的 全 局 ID。 一 个 文件 有 可 能 包含 多 个 块 , 一 个 块 也 可 以 包含 多 个 文件 ,由 文件 的 大 小 和 
块 大 小 的 参数 决定 (在 hdfs-site. xml 中 的 dfs. blocksize 参数 设置 块 大 小 )。 一 般 情 况 下 ， 
如 果 一 个 文件 大 于 数据 块 的 大 小 ,HDFS 将 大 文件 分 解 得 到 若干 个 数据 块 ;如 果 一 个 文件 
小 于 数据 块 的 大 小 , 则 按 该 文件 的 实际 大 小 组 块 存储 ,如 图 4. 1 所 示 。 

从 图 4.1 中 可 以 看 出 ,文件 wordcount 和 hadoop-2. 6. 0. tar. gz 在 HDFS 上 所 存储 
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的 块 信息 。 其 中 ,图 4.1(d) 显 示 了 两 个 文件 的 大 小 分 别 为 21B 和 186. 21MB, 块 的 大 小 
设置 为 128MB, 并 且 这 两 个 文件 都 有 三 个 副本 ;图 4. 1(a) 显 示 了 文件 wordcount 在 
HDFS 上 的 块 数量 (一 个 块 Block0) ,文件 占用 Block0 空间 大 小 及 块 ID 等 信息 ;图 4. 1 
(b) 和 图 4.1(c) 显示 了 文件 hadoop-2. 6. 0. tar. gz 的 块 数量 (两 个 块 ,分 别 是 Block0 和 
Block1) ,文件 占用 块 空间 的 大 小 及 块 ID 等 信息 。 由 于 文件 wordcount 小 于 数据 块 大 小 
(128MB) ,因此 该 文件 在 HDFS 上 占用 一 个 数据 块 ;文件 hadoop-2. 6. 0. tar. gz 大 小 为 
186. 21MB 大 于 数据 块 大 小 (128MB) ,因此 该 文件 在 HDFS 上 占用 了 两 个 数据 块 。 
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Permission Owner. Group Size Replication. Block Size Name 
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(d) 
4.1 HDFS 中 文件 块 信息 
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所 谓 元 数据 (Metadata) 是 指数 据 的 数据 ,HDFS 与 传统 的 文件 系统 一 样 ,提供 了 一 个 
分 级 的 文件 组 织 形式 ,维护 这 个 文件 系统 所 需 的 信息 (除了 文件 本 身 内 容 ) 就 称 为 HDFS 
的 元 数据 。 元 数据 节点 (NameNode) 是 用 来 管理 文件 系统 的 命名 空间 (Namespace)。 该 
命名 空间 中 含有 定位 文件 的 某 个 数据 块 所 需 的 所 有 信息 ,如 DataNode 列表 、 数 据 块 列 
表 、 文 件 和 目录 列表 等 元 数据 信息 ,其 中 文件 和 目录 以 iNode 的 方式 描述 。 

元 数据 节点 (NameNode) 将 与 目录 和 文件 ( 即 命名 空间 Namespce) 有 关 的 信息 存储 
在 内 存 中 ,并 且 主 要 维持 两 张 表 : <filename, blocksequence> H< block. machinelist> 。 
通过 第 一 张 表 可 以 找到 文件 所 用 的 数据 块 IDCblock id) ,通过 第 二 张 表 可 以 找到 数据 块 
的 实际 物理 存储 位 置 。 这 些 信 息 同样 也 会 保存 到 本 地 硬盘 的 以 下 文件 中 (Hadoop 1.0 生 
态 系统 和 Hadoop 2. 0 生态 系统 保存 在 本 地 的 文件 名 相同 ) 。 


l. fsimage 


fsimage 文件 (是 一 个 二 进 制 文件 ) 及 其 对 应 的 mds 校 验 文件 ,保存 了 文件 系统 目录 
树 信息 ,以 及 文件 和 块 的 对 应 关系 信息 ,是 HDFS 中 元 数据 相关 的 重要 文件 。 在 Hadoop 
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1.0 生态 系统 中 ,fsimage 信息 不 是 最 新 的 ;而 在 Hadoop 2. 0 生态 系统 中 ,fsimage 信息 是 
最 新 的 。 图 4.2 给 出 了 本 实例 HDFS 上 的 fsimage 信息 (本 实例 的 fsimage 及 对 应 的 
md5 校 验 文件 在 /opt/hadoop-2. 6.0/dfs/name/current/ 目 录 下 )。 


2. edits 


edits 文件 中 保存 了 最 新 检查 点 后 的 命名 空间 的 变化 。 当 客户 端 对 文件 进行 读 写 操 
作 时 ,操作 首先 会 记 和 人 到 edits 文件 中 ,然后 才 会 更 改 内 存 中 的 数据 。 在 Hadoop 1.0 Æ 
态 系统 中 ,edits 信息 不 是 最 新 的 ;而 在 Hadoop 2. 0 生态 系统 中 ,edits 信息 是 最 新 的 。 
图 4. 3 给 出 了 本 实例 HDFS 上 的 部 分 edits 信息 。 


二 ER aa nananana dits 60056660005666047283 0000000000000000479 


edits 0000000000000000480-0000000000000000481. 


simage ( BEDV dits 0000000000000000482-0000000000000000483 
simage 0000000000000001097 .md5| dits 0000000000000000484-0000000000000000485 
图 4.2 HDFS 上 的 fsimage 及 对 应 的 md5 检验 文件 图 4.3 HDFS 上 的 edits 文 件 
3. VERSION 


VERSION 文件 是 Java 的 属性 文件 ,保存 了 HDFS 的 版 本 号 等 信息 。 下 面 以 本 实例 
HDFS 上 的 VERSION 文件 为 例 ( 本 实例 的 VERSION 文件 在 /opt/hadoop-2. 6. 0/dfs/ 
name/current/ 目 录 下 ), 其 内 容 如 下 。 


#Tue Jan 06 21:15:19 EST 2015 

DamespaceID= 143058597 

clusterID- CID- 447ae62c- 1420- 4811- 902c- c802p2041338 
cTime- 0 

StorageType- NAME, NODE. 

blockpoo1ID= BP- 1719085996- 192.168.85.100- 1420355186009 
laycutVersion- - 60 


在 VERSION 文件 中 ,namespaceID 是 文件 系统 的 唯一 标识 符 ,是 在 文件 系统 初次 格 
式 化 时 生成 的 :clusterID 是 系统 生成 或 手动 指定 的 集群 ID ,在 -clusterid 选项 中 可 以 使 用 
它 ;cTime 表示 NameNode 存储 时 间 的 创建 时 间 ,如果 NameNode 没有 更 新 过 ,记录 值 将 
设 为 0, 和 否则 cTime Tf id o EE BIER: storage Type 说 明 这 个 文件 存储 的 是 什么 进程 
的 数据 结构 信息 ,如 果 是 NameNode, storageType= NAME_NODE;blockpoollD 是 针对 
每 一 个 Namespace 所 对 应 的 blockpool 的 ID. ID 内 容 包 括 与 其 对 应 的 NameNode 节点 的 
IP 地 址 等 信息 ;layoutVersion 表示 HDFS 永久 性 数据 结构 的 版 本 信息 ,只 要 数据 结构 变 
更 ,版 本 号 也 要 递减 ,此 时 的 HDFS 也 需要 升级 ,否则 磁盘 仍旧 是 使 用 旧版 本 的 数据 结 
构 ,这 会 导致 新 版 本 的 NameNode 无 法 使 用 。 


4. seen txid 


seen txid 是 用 来 存放 transactionId 的 文件 。 如 果 将 HDFS 格式 化 之 后 ,seen_txid 
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文件 中 的 内 容 是 0, 它 代表 的 是 NameNode E H hY edits_ * 文件 的 尾数 。 当 NameNode 
重启 时 ,HDFS 会 按照 seen_txid 所 提供 的 数字 ,循序 从 edits 0000001 到 seen. txid 的 数 
字 。 下 面 以 本 实例 HDFS 上 的 seen. txid X fF Jy ffl (seen. txid. 文件 在 /opt/hadoop- 
2.6. 0/dfs/name/current/ 目录 下 ) ,其 内 容 如 下 : 


1583 


当 NameNode 重启 时 ,HDFS 会 按照 seen. txid 所 提供 的 数字 1583. 8 F JÀ edits _ 
0000001 到 1583 ,如 图 4. 4 所 示 o 


edita i Q000000000000001565. 0000000000000001570 
ledits 0000000000000001571-0000000000000001572 
ledits 0000000000000001573-0000000000000001574 
ledits 0000000000000001575-0000000000000001576 
ledits 0000000000000001577-0000000000000001578 
ledits 0000000000000001579-0000000000000001580 
[edits 0000000000000! 0000000000001582 


fsimage í 50000000000 * 
fsimage 0000000000000000222.md5 edits 尾 
fsimage_0000000000000001097 

fsimage 0000000000000001097.md5 


seen_txid 文 件 中 的 内 容 为 : 1583 


图 4.4 seen txid 文件 


如 果 seen_txid 内 的 数字 不 是 edits 最 后 的 尾数 ,就 会 导致 启动 NameNode 时 元 数据 
信息 缺失 ,发 生 误 删 DataNode 上 数据 块 的 情况 。 

上 述 这 些 文件 的 默认 存储 路 径 为 : ${dfs. namenode. name. dir)/current/ 目 录 下 ,其 
中 dfs, namenode. name. dir 是 在 hdfs-site. xml 文件 中 进行 配置 的 ,默认 值 如 下 : 


«property» 
< name» dfs.namenode .name .di r« /name» 
< value» file://$ (hadoop.trp.dir) /dfs/name« /value» 
< description» Determines where on the local filesystem the DES name node 
should store the name table(fsimage). If this is a ome- delimited list 
directories, for redundancy. < /description» 
< /property» 


在 Hadoop 2. 0 生态 系统 中 ,根据 dfs. namenode. name. dir ff) <description> JR tE fii 
述 ,NameNode 目录 可 以 配置 多 个 ,如 /datal/dfs/name、/data2/dfs/name、/data3/dfs/ 
name、…。 各 个 目录 存储 的 文件 结构 和 内 容 都 完全 一 样 , 即 使 其 中 一 个 目录 损坏 ,也 不 会 
影响 HDFS 中 的 元 数据 。 

当 一 个 NameNode 启动 时 , 它 首 先 从 一 个 映像 文件 fsimage 中 读 取 HDFS 的 状态 ， 
并 应 用 日 志文 件 中 的 edits 操作 。 然 后 ,将 最 新 的 HDFS RASA fsimage 中 ,并 使 用 一 
个 空 的 edits 文件 (edits. new) 开 始 正常 操作 。 因 为 NameNode 只 有 在 启动 阶段 才 合 并 
fsimage 和 edits, 所 以 一 段 时 间 后 日 志文 件 可 能 会 变 得 非常 庞大 ,特别 是 对 大 型 的 集群 。 
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日 志文 件 太 大 的 另 一 个 副作用 是 下 一 次 NameNode 启动 会 花 很 长 时 间 。 
423 辅助 元 数据 节点 


在 Hadoop 1.0 生态 系统 中 ,辅助 元 数据 节点 (SecondaryNameNode) 是 对 元 数据 节 
点 (NameNode) 的 一 个 补充 ,本 质 上 是 NameNode 的 一 个 快照 ,其 主要 功能 就 是 周期 性 地 
将 元 数据 节点 的 命名 空间 镜像 文件 fsimage 和 修改 日 志 edits 合并 ,以 防 日 志文 件 edits 
过 大 ,导致 元 数据 节点 (NameNode) 启 动 时 间 过 长 ,并 将 合并 过 后 的 命名 空间 镜像 文件 也 
在 辅助 元 数据 节点 保存 了 一 份 .从 而 防止 元 数据 节点 失败 所 导致 的 数据 丢失 问题 。 在 
Hadoop 2.0 生态 系统 中 ,已 经 通过 HA 机 制 解决 了 NameNode 的 单 点 故障 问题 ,同时 不 
再 用 SecondaryNameNode 对 fsimage 和 edits 合并 了 (Hadoop 2. 0 生态 系统 如 何 实现 
fsimage 和 edits 合并 ,请 查看 HDFS HA 章节 )。 下 面 将 重点 介绍 在 Hadoop 1. 0 生态 系 
统 中 的 辅助 元 数据 节点 (SecondaryNameNode) 。 

辅助 元 数据 节点 (SecondaryNameNode) 定 期 从 元 数据 节点 (NameNode) 上 下 载 元 数 
据 信息 (元 数据 镜像 fsimage 和 元 数据 库 操作 日 志 edits) ,然后 将 fsimage 和 edits 进行 合 
并 ,生成 新 的 fsimage. ckpt GZ fsimage 就 是 SecondaryNameNode 下 载 时 刻 的 元 数据 的 
Checkpoint) 保 存在 本 地 ,同时 将 其 推送 到 NameNode, 定 期 合并 fsimage 和 edits 日 志 ,把 
edits 日 志文 件 大 小 控制 在 一 个 限度 下 ,其 合并 机 制 如 图 4. 5 所 示 。 


元 数据 节点 辅助 元 数 数据 节点 
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fsimage edits 
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4.5 fsimage 和 edits 合并 机 制 


从 图 4. 5 可 以 看 出 ,辅助 元 数据 节点 (SecondaryNameNode) 通知 元 数据 节点 
(NameNode) 生 成 新 的 日 志文 件 edits( 目 的 合并 edits) ,并 从 NameNode 获得 fsimage X 
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件 和 旧 的 edits 文件 。 然 后 ,SecondaryNameNode 将 fsimage 载 入 内 存 , 并 执行 日 志文 件 
edits 中 的 操作 ,从 而 生成 新 的 fsimage 文件 (fsimage. ckpt) 。 最 后 ,SecondaryNameNode 
将 新 的 fsimage. ckpt 文件 发 回 给 NameNode. NameNode 将 旧 的 fsimage 文件 及 旧 的 
edits 文件 替换 为 新 的 fsimage 文件 和 新 的 edits 文件 并 写 人 此 次 检查 时 间 。 在 fsimage 
和 edits 合并 过 程 中 ,SecondaryNameNode 对 内 存 的 需求 与 NameNode 是 相同 的 ,所 以 对 
于 那些 大 型 的 生产 系统 中 ,如 果 将 两 者 部 署 到 同 台 服务 器 上 ,在 内 存 上 会 出 现 瓶 开 。 所 以 
最 好 将 NameNode 和 SecondaryNameNode 分 别 部 署 到 不 同 的 服务 器 。 另 外 ， 
SecondaryNameNode 保存 的 只 是 检查 时 刻 的 元 数据 ,一 旦 NameNode 上 的 元 数据 损坏 ， 
通过 检查 点 恢复 的 元 数据 并 不 是 HDFS 此 刻 的 最 新 数据 ,因此 存在 数据 一 致 性 的 问题 
(在 Hadoop 2. 0 生态 系统 中 ,fsimage 和 edits 都 为 最 新 数据 ,不 存在 数据 一 致 性 问题 ) 。 

ik: 在 Hadoop 1. 0 生态 系统 中 ,检查 周期 的 设 定 可 在 core-site. xml 配置 文件 中 对 
Ís. checkpoint. period 和 fs. checkpoint. size 进行 设置 。fs. checkpoint. period 表示 指定 连 
续 两 次 检查 点 的 最 大 时 间 间 隔 ,默认 值 为 3600s;fs. checkpoint. size 定义 了 edits 日 志文 
件 的 最 大 值 ,默认 值 为 64MB。 
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在 分 布 式 文件 系统 中 ,每 个 数据 文件 都 被 切 分 成 若干 个 数据 块 ,每 个 数据 块 都 被 存储 
在 不 同 的 服务 器 上 。 因 此 ,存放 数据 块 的 服务 器 称 为 数据 节点 (DataNode)。 数 据 节 点 是 
HDFS 中 真正 存储 数据 块 的 地 方 , 并 且 数 据 节 点 主要 维持 一 张 二 block,block_size 二 表 。 
DataNode 定期 将 该 表 上 报 给 NameNode,NameNode 通过 该 表 来 了 解 当 前 DataNode 的 
空间 使 用 情况 。 这 些 信 息 同 样 也 会 保存 到 本 地 硬盘 的 文件 中 。Hadoop 1. 0 生态 系统 与 
Hadoop 2. 0 生态 系统 保存 到 本 地 的 文件 名 会 有 所 区 别 ,但 存储 信息 内 容 基本 一 致 。 

在 Hadoop 1.0 生态 系统 中 ,数据 块 信息 保存 到 本 地 的 以 下 文件 中 。 

1) blk_<id> 

blk 一 id 之 保存 的 是 HDFS 的 数据 块 ,其 中 保存 了 具体 的 二 进 制 数据 。 

2) blk_—id>. meta 

blk_<id>. meta 保存 的 是 数据 块 的 属性 信息 ,包括 版 本 信息 、 类 型 信息 等 内 容 。 

3) VERSION 

VERSION 文件 是 Java 的 属性 文件 ,保存 了 HDFS 的 版 本 号 等 信息 。 

在 Hadoop 2.0 生态 系统 中 ,数据 块 信息 保存 到 本 地 的 以 下 文件 中 。 

1) BP-<id> 

BP- 一 id> 文 件 提供 了 一 个 BlockPoolID 标识 ,并 且 是 跨 集群 的 全 局 唯一 。 当 一 个 新 
的 Namespace 被 创建 时 ,会 创建 并 持久 化 一 个 唯一 ID, 并 且 BlockPoolID 会 被 持久 化 到 
磁盘 中 ,在 后 续 的 启动 过 程 中 ,会 再 次 被 调和 人 使用。 全 局 唯一 的 BlockPoolID 比 人 为 的 配 
置 更 可 靠 一 些 。 

2) VERSION 

VERSION 文件 是 Java 的 属性 文件 ,保存 了 HDFS 的 版 本 号 等 信息 。 下 面 以 本 实例 
HDFS 上 的 VERSION 文件 为 例 (本 实例 的 VERSION 文件 是 以 Slave3. Hadoop 节点 中 
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的 文件 为 例 ,在 /opt/hadoop-2. 6. 0/dfs/data/current/ H 3t FO ,其 内 容 如 下 。 


#Thu Jan 08 00:14:47 EST 2015 

StorageID- DS- d6a83e27- fd85- 46ae- a4c4- cl19f6db26611 
clusterID= CID- 447ae&2c- 1420- 4811- 902c- c802b2031338 
cTime-0 
datanodeUuid- 111eelee- c2e2- 4c02- b9f0- c1f2548a0ff8 
storageType- DATA NODE. 

layoutVersian- - 56 


DataNode 节点 目录 中 的 VERSION 文件 比 NameNode 节点 目录 中 的 VERSION 文 
件 多 一 个 storageID 属性 和 datanodeUuid 属性 。 其 中 .storageID 表示 一 个 数据 节点 在 集 
群 中 的 唯一 标识 ,是 DataNode 节点 向 NameNode 节点 第 一 次 注册 时 ,NameNode 为 它 分 
配 的 一 个 分 布 式 存储 器 标识 ,一 个 DataNode 节点 中 所 有 存储 路 径 的 storagelD 是 一 样 
的 ;datanodeUuid 表示 DataNode 的 通用 唯一 识别 码 。 

上 述 这 些 文 件 的 默认 存储 路 径 为 $ {dfs. datanode. data. dir}/current/ 目 录 下 ,其 中 
dfs. datanode. data. dir 是 在 hdfs-site. xml 文件 中 进行 配置 的 ,默认 值 如 下 。 

«property» 

< name» dfs.datanode.data.dir« /name» 

« value» file://$ (hadocp. trp.dir) /dfs/data« /value» 

< description» Determines where on the local filesystem an DFS data node 
should store its blocks. If this is a omm- delimited 

list of directories, then data will be stored in all named 


根据 dfs. datanode. data. dirr HJ < description > Jñ E fi 3E , DataNode. 目录 同样 也 可 
以 配置 多 个 ,如 /datal/dfs/data、/data2/dfs/data、/data3/dfs/data、**。 

男 外 ,HDFS 客户 端 (Client) 在 HDFS 中 也 承担 着 重要 的 角色 ,是 指 需 要 访问 HDFS 
文件 服务 的 用 户 或 应 用 ,如 命令 行 客户 端 \API 客户 端 等 。 客 户 端的 主要 功能 就 是 接收 用 
户 的 请 求 , 并 通过 网 络 与 NameNode 和 DataNode 交互 等 。 


4.3 HDEFS 体系 架构 


Hadoop 1.0 生态 系统 中 HDFS 和 Hadoop 2. 0 生态 系统 中 的 HDFS 体系 架构 有 着 
明显 的 不 同 。 下 面 将 分 别 介绍 在 不 同 生 态 系 统 中 HDFS 的 体系 架构 。 
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在 Hadoop 1. 0 生态 系统 中 ,HDFS 的 体系 架构 是 一 个 典型 的 Master/Slave 架构 , 包 
括 一 个 NameNode 节点 和 多 个 DataNode 节点 ,并 提供 应 用 程序 访问 接口 Client。 
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Hadoop 1. 0 生态 系统 中 HDFS 体系 架构 如 图 4. 6 所 示 。 


i = 
Metadata(Name,…) p 


同步 元 数据 和 日 志 


` Secondary 
NameNode 


另 一 个 机 架 


图 4.6 Hadoop 1.0 生态 系统 中 HDFS 的 体系 架构 


图 4.6 中 的 连 线 表示 两 者 之 间 存 在 通信 ,箭头 一 方 表 示 请 求 ,没有 箭头 的 一 端 表示 发 
起 请 求 的 一 方 ; 图 中 的 实 线 表 示 数 据 消息 的 通路 ,虚线 表示 控制 消息 的 通路 。HDFS 的 通 
信 分 为 控制 通信 和 数据 通信 两 种 ,而 且 所 有 的 HDFS 通信 协议 都 是 构建 在 TCP/IP 上 。 
HDFS 上 NameNode、DataNode 和 Client 之 间 的 通信 主要 有 4 种 , 即 Client 与 
NameNode,Client 与 DataNode, NameNode 与 DataNode, DataNode 与 DataNode。 其 
中 ,Client 通过 一 个 可 配置 的 端口 连接 到 NameNode, 通 过 Client Protocol 与 NameNode 
交互 ;DataNode 是 使 用 DataNode Protocol 与 NameNode 交互 ;NameNode 不 会 主动 发 
起 通信 请 求 , 而 是 响应 来 自 Client 和 DataNode 的 请 求 。 

从 图 4.6 可 以 看 出 ,NameNode 是 整个 文件 系统 的 管理 节点 , 它 负 责 文件 系统 名 字 空 
间 (Namespace) 的 管理 与 维护 ,同时 负责 客户 端 文件 操作 的 控制 以 及 具体 存储 任务 的 管 
理 与 分 配 ; DataNode 提供 真实 文件 数据 的 存储 服务 ; Client 负责 与 NameNode 和 
DataNode 交互 。HDFS 将 文件 的 数据 块 分 配 信息 存放 在 NameNode 服务 器 之 上 ,文件 
数据 块 的 信息 分 布地 存放 在 DataNode 服务 器 上 。 当 整个 系统 容量 需要 扩充 时 ,只 需要 
增加 DataNode 的 数量 ,系统 会 自动 地 实时 将 新 的 服务 器 匹配 进 整 体 阵列 之 中 。 然 后 ,文件 
的 分 布 算 法 会 将 数据 块 搬迁 到 新 的 DataNode 之 中 ,不 需 任何 系统 宕 机 维护 或 人 工 干 预 。 然 
而 HDFS 无 法 高 效 地 存储 大 量 小 文件 ,也 不 支持 多 用 户 写 入 及 任意 修改 文件 的 操作 。 
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5j Hadoop 1.0 生态 系统 中 的 HDFS 相 比 ,Hadoop 2. 0 生态 系统 中 的 HDFS 增加 了 
两 个 重大 特性 : HA 和 Federaion。HA 即 为 High Availability, 用 于 解决 NameNode 单 
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点 故障 问题 , 该 特性 通过 热 备 的 方式 为 主 NameNode 提供 一 个 备用 者 ,一旦 主 
NameNode 出 现 故障 ,可 以 迅速 切换 至 备用 NameNode, 从 而 实现 不 间断 对 外 提供 服务 。 
Federation 即 为 “联邦 ” ,该 特性 允许 一 个 HDFS 集群 中 存在 多 个 NameNode 同时 对 外 提 
供 服务 ,这些 NameNode 分 管 一 部 分 目录 (水 平 切 分 ) ,彼此 之 间 相 互 隔离 ,但 共享 底层 的 
DataNode 存储 资源 。Hadoop 2.0 生态 系统 中 的 HDFS 体系 架构 如 图 4. 7 所 示 。 


Client Side 
Mount Table 


和 A 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
Name Service 1 I 1 Name Service k I 
1 /share/ 1 U 1 /user/ | 


DataNode-1 DataNode-2 DataNode-3 DataNode-4 DataNode-n 


图 4.7 Hadoop 2.0 生态 系统 中 HDFS 的 体系 架构 


从 图 4.7 可 以 看 出 , Hadoop 2. 0 生态 系统 中 HDFS 比 Hadoop 1. 0 生态 系统 中 的 
HDFS 多 出 “Block Pool" fl* Name Service” 两 个 概念 。Block Pool 是 一 个 重新 将 block 划 
分 的 逻辑 概念 , 即 属于 一 个 命名 空间 的 一 组 block, 每 个 DataNode 会 为 多 个 Block Pool 
存储 block; Name Service 是 NameNode 的 抽象 ,提供 服务 的 不 再 是 NameNode 本 身 ,而 
是 Name Service, fE HDFS 中 可 以 有 多 个 Block Pool, 每 个 Block Pool 会 各 自 管理 各 自 
的 block ,它们 之 间 相 互 独立 且 不 需要 互相 协调 ;在 HDFS 中 也 可 以 有 多 个 Name 
Service ,每 个 Name Service 又 是 由 一 个 或 两 个 NameNode 组 成 。Hadoop 客户 端 Client 
是 使 用 Client Side Mount Table 方式 做 到 数据 共享 和 访问 的 ,其 原理 是 将 各 个 命名 空间 
挂 载 到 全 局 mount-table 中 ,实现 数据 全 局 共享 ,再 将 同样 的 命名 空间 挂 载 到 Client 的 
mount-table 中 ,实现 应 用 程序 可 见 的 命名 空间 视图 。 总 之 , Hadoop 2. 0 生态 系统 中 的 
HDFS 通过 Federation 的 形式 实现 了 NameNode 的 横向 扩展 ,并 支持 多 个 命名 空间 , 同 
时 通过 HA 机 制 实现 了 NameNode 单 节 点 故障 。 


4.4 HDFS 核心 功能 


HDFS 是 Hadoop 生态 系统 中 最 主要 的 分 布 式 文件 系统 ,负责 管理 文件 系统 元 数据 
NameNode 和 存储 实际 数据 的 DataNode, Hadoop 生态 系统 中 的 其 他 组 件 的 更 改 和 新 特 
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性 都 有 规律 地 遵循 HDFS。HDFS 中 的 一 些 比较 重要 的 功能 如 表 4. 1 所 示 。 
表 4.1 HDFS 核心 功能 
核心 功能 说 H 


命名 空间 HDFS 支持 传统 的 层次 型 文件 组 织 ,与 大 多 数 其 他 文件 系统 类 似 , 用 户 可 以 创建 目录 ， 
Namespace | 并 在 其 间 创 建 、 删 除 、 移 动 和 重 命 名 文件 


Hadoop 包括 一 系列 的 类 Shello 命令 ,可 直接 和 HDFS 以 及 其 他 Hadoop 支持 的 文件 系 


Shell 命 令 统 进行 交互 
HDFS 被 设计 成 在 一 个 大 集群 中 可 以 跨 机 器 地 可 靠 地 存储 海量 的 文件 。 它 将 每 个 文件 
数据 复制 存储 成 block 序列 ,除了 最 后 一 个 block, 所 有 的 block 都 是 同样 的 大 小 。 文 件 的 所 有 


block 为 了 容错 都 会 被 复制 。 每 个 文件 的 block 大 小 和 replication 因子 都 是 可 配置 的 。 
replication 因子 可 以 在 文件 创建 的 时 候 配 置 ,以 后 也 可 以 改变 


HDFS 的 存放 策略 是 将 一 个 副本 存放 在 本 地 机 架 上 的 节点 ,一 个 副本 放 在 同一 机 架 上 
机 架 感知 “| 的 另 一 个 节点 ,最 后 一 个 副本 放 在 不 同 机 架 上 的 一 个 节点 。 机 架 的 错误 远 远 比 节点 的 
错误 少 ,这 个 策略 不 会 影响 到 数据 的 可 靠 性 和 有 效 性 


HDFS 支持 数据 的 均衡 计划 ,如 果 某 个 DataNode 节点 上 的 空闲 空间 低 于 特定 的 临界 
点 ,那么 就 会 启动 一 个 计划 自动 地 将 数据 从 一 个 DataNode 搬移 到 空闲 的 DataNode。 


ARER 当 对 某 个 文件 的 请 求 突然 增加 ,那么 也 可 能 启动 一 个 计划 创建 该 文件 新 的 副本 ,并 分 布 
到 集群 中 以 满足 应 用 的 要 求 
从 某 个 DataNode 获取 的 数据 块 有 可 能 是 损坏 的 ,这 个 损坏 可 能 是 由 于 DataNode 的 存 
储 设备 错误 、 网 络 错误 或 者 软件 Bug 造成 的 。HDFS 客户 端 软件 实现 了 HDFS 文件 内 
数据 完整 性 容 的 校 验 和 。 当 某 个 客户 端 创建 一 个 新 的 HDFS 文件 ,会 计算 这 个 文件 每 个 block 的 


校 验 和 ,并 作为 一 个 单独 的 隐藏 文件 保存 这 些 校 验 和 在 同一 个 HDFS Namespace 下 。 
当 客户 端 检索 文件 内 容 , 它 会 确认 从 DataNode 获取 的 数据 跟 相 应 的 校 验 和 文件 中 的 校 
验 和 是 否 匹 配 ,如 果 不 匹配 ,客户 端 可 以 选择 从 其 他 DataNode 获取 该 block 的 副本 


快照 支持 某 个 时 间 的 数据 备份 , 当 HDFS 数据 损坏 的 时 候 , 可 以 恢复 到 过 去 一 个 已 知 正 
快照 确 的 时 间 点 。Hadoop 1.0 生态 系统 中 HDFS 不 支持 快照 功能 。Hadoop 2. 0 生态 系统 
中 HDFS 支持 快照 功能 


删除 文件 并 没有 立刻 从 HDFS 中 删除 ,HDFS 将 这 个 文件 重 命名 ,并 转移 到 /trash 目 
空间 的 回收 | 录 。 当 被 删除 的 文件 还 保留 在 /trash 目录 中 的 时 候 , 如 果 用 户 想 恢复 这 个 文件 ,可 以 检 
索 浏 览 /trash 目录 并 检索 该 文件 。/trash 目录 仅 保存 被 删除 文件 的 最 近 一 次 备份 


4.5 HDEFS 通信 机 制 


在 Hadoop 集群 中 ,为 了 方便 集群 中 各 组 件 之 间 的 通信 ,Hadoop 采用 了 基于 IPC 模 
型 实现 的 一 个 高 效 的 轻 量 级 RPC 框架 (Remote Procedure Call Protocol) ,提供 了 分 布 式 
环境 下 的 对 象 调 用 功能 。Hadoop 的 RPC 采用 Client/Server 模式 ,其 中 请 求 服务 的 一 端 
为 Client ,提供 服 务 的 一 端 为 Server, 通 信 形 式 有 Client 和 NameNode( 其 中 NameNode 
为 Server) , NameNode 和 DataNode( 其 中 DataNode 为 Client. NameNode 为 Server), 
Client 和 DataNode (其 中 DataNode 为 Server). DataNode 和 DataNode( 其 中 一 个 为 
Client, 另 一 个 为 Server) 之 间 的 通信 。 通 过 RPC 可 以 从 网 络 上 的 计算 机 请 求 服务 ,而 不 
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需要 了 解 底层 网 络 协议 。 

Hadoop 的 RPC 主要 由 RPC Interface (对 外 编程 接口 )、Client (客户 端 实现 ) 和 
Server( 服 务 器 端 实现 ) 三 部 分 组 成 。 其 中 ,RPC Interface 主要 用 于 为 通信 的 服务 方 提供 
代理 ;Client 主要 用 于 连接 Server 端 、 传 递 函数 参数 名 和 相应 的 参数 、 等 待 结果 等 ;Server 
主要 用 于 接受 Client 的 请 求 、 执 行 相应 的 函数 .返回 结果 等 ,三 者 之 间 的 交互 过 程 如 图 4.8 


所 示 。 
= = 
序列 化 / 反 序列 化 


RPC Client RPC Server 


Proxy Object 
Caller ë 反射 机 制 


| RPC Interface 


Java NIO Java Reflection Java Net 
java.nio.* Java.lang.reflect.* java.net.* 


4.8 Hadoop 的 RPC 通信 过 程 


从 图 4. 8 可 以 看 出 ,Client 和 Server 之 间 在 消息 传输 时 ,采用 了 TCP/IP 的 Socket 
机 制 ,并 将 请 求 中 的 参数 或 者 应 答 序列 化 / 反 序列 化 为 字 节 流 进行 传输 ;在 调用 和 执行 函 
数 时 ,是 采用 Java 动态 代理 和 反射 机 制 来 实现 的 ;在 具体 实现 时 ,RPC 用 到 了 JDK 提供 
的 各 种 功能 包 , 主 要 包括 java. nio. * (Java NIO 是 Java New IO 的 简称 ,在 JDK 1. 4 版 本 
以 上 提供 的 新 API) java. lang. reflect. * (反射 机 制 和 动态 代理 ) 和 java. net. * (网 络 编 
程 库 ) 等 。 

注 : 在 Hadoop 1.0 生态 系统 中 ,RPC 仅 支 持 基 于 Writable 序列 化 方式 ;在 Hadoop 
2.0 生态 系统 中 , RPC 提供 了 Writable (WritableRpcEngine) 和 Protocol Buffers 
(ProtobufRpcEngine) 两 种 序列 化 框架 ,其 默认 实现 是 Writable 方式 ,用 户 可 通过 调用 
RPC. setProtocolEngine(…) 修 改 采 用 的 序列 化 方式 。 
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Hadoop 定义 了 自己 的 通信 协议 ,实现 了 基于 IPC 模型 的 RPC 机 制 。 这 些 协 议 都 是 
建立 在 TCP/IP 之 上 ,规范 了 通信 两 端的 约定 。 在 Hadoop 1.0 生态 系统 中 ,存在 一 个 ipc 
包 , 即 org. apache. hadoop. ipc 包 。 与 HDFS 有 关 的 通信 协议 接口 的 继承 关系 如 下 所 示 。 


|- org.apache.hadoop.hafs.protocol.ClientProtocol 
|- org.apache.hadoop.hdfs.protocol .ClientDatanodeProtocol 
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| - org.apache.hadoop.hdfs.server.protocol .NamenodeProtocol. 
1- org.apache.hadoop.hdfs.server protocol .DatanodeProtocol 
| - org.apache.hadoop.hdfs.server.protocol.TInterDatanodeProtocol 


在 Hadoop 2.0 生态 系统 中 存在 两 个 ipc 包 , 分 别 在 hadoop-common 项 目 中 的 org. 
apache. hadoop. ipc 包 和 hadoop-yarn-common 项 目 中 的 org. apache. hadoop. yarn. ipc 
包 。 其 中 ,hadoop-common 项 目的 ipc 包 是 Hadoop RPC; hadoop-yarn-common 项 目的 
ipc 包 是 新 的 YARN RPC, 


1. VersionedProtocol 


VersionedProtocol 是 RPC 协议 接口 的 父 接口 。 在 Hadoop 1.0 生态 系统 中 ,所 有 要 
使 用 RPC 服务 的 类 都 要 实现 该 接口 ;在 Hadoop 2.0 生态 系统 中 ,只 有 ClientProtocol 继 
承 了 该 接口 。VersionedProtocol 接口 的 定义 如 下 。 


import java.io.ICExosption; 


pe 

* 使 用 Hadoop REC 机 制 的 所 有 协议 的 超 类 

* 该 接口 的 子 类 同样 支持 具有 一 个 static final long 的 版 本 属性 字段 
*/ 

public interface VersionedProtocol { 


x 

* 返回 与 指定 协议 protocol 相关 的 协议 版 本 

* Q param protocol 协议 接口 的 类 名 

* @param clientVersion 客户 端 欲 与 服务 器 进行 交互 , 它 所 使 用 的 协议 版 本 
* Qretum 返回 服务 器 将 要 与 客户 端 进行 交互 ,所 需要 使 用 的 协议 版 本 
ey 


pe 

* Hadog 2.0 生 态 系统 中 新 加 入 的 该 方法 ,思考 版 本 之 间 的 兼容 性 问题 

* 返回 与 指定 协议 protocol 相关 的 协议 接口 

* @ param protocol 协议 接口 的 类 名 

* @param clientVersicn 客 户 端 欲 与 服务 器 进行 交互 , 它 所 使 用 的 协议 版 本 

* @ param clientMethodsHash 客户 端 协议 方法 的 hashoode. 

*/ 

public ProtocolSignature getProtooolSignature (String protocol, long clientVersion, int 
clientMethodstash) throws ICException; 

l 
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2. ClientProtocol 


该 协议 是 用 户 进程 (Client 进程 或 DataNode 3E f£) 5j NameNode 进程 之 间 进 行 通信 
所 使 用 的 协议 。 当 Client 进程 需要 向 DataNode 数据 节点 复制 数据 块 时 ,需要 通过 
ClientProtocol 协议 与 NameNode 进程 通信 ,从 而 获取 DataNode 节点 列表 ; 当 DataNode 
进程 向 NameNode 进程 发 送 状 态 报 告 时 ,需要 通过 ClientProtocol 协议 与 NameNode 进 
程 通信 。 该 接口 定义 了 对 HDFS 操作 的 很 多 方法 ,如 打开 、 重 命名 、 创 建 目 录 、 删 除 . 关 闭 
文件 流 等 DFSClient 与 NameNode 交互 的 方法 。 如 果 要 对 HDFS 上 的 文件 进行 操作 ,一 
般 不 会 直接 使 用 该 接口 ,而 是 通过 org. apache. hadoop. fs. FileSystem 实现 对 HDFS 的 操 
作 。 该 接口 定义 了 一 个 static final 的 versionID 字段 ,如 下 所 示 。 


he 


* 用 来 识别 各 个 版 本 的 HDES 
* 不 同 版 本 之 间 ,无 法 进行 通信 


*/ 
public static final long versionID- 611; // 在 Hadoop 1.2.1 ,versionID JE 611, 
public static final long versionID- 69L; // 在 Hadog 2.6.0 f ,versionID JE 69, 


该 接口 协议 中 定义 的 与 文件 内 容 相关 的 操作 的 方法 及 说 明 如 表 4.2 所 示 。 
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表 4.2. ClientProtocol 协议 中 常用 方法 
说 B 


getBlockLocations() 


获取 指定 文件 的 全 部 块 信息 ,并 返回 一 个 对 象 LocatedBlocks, 该 对 
象 包括 文件 长 度 ,组 成 文件 的 块 及 存储 位 置 


create() 


在 文件 系统 命名 中 创建 一 个 文件 入 口 。 一 旦 文件 创建 成 功 ,可 以 被 
其 他 Client 来 执行 读 操 作 , 但 不 能 够 对 该 文件 进行 删除 、 重 命名 、 重 
写 操作 


append() 


实现 对 现 有 文件 的 追加 操作 ,只 有 当 HDFS 开启 了 dfs. support. 
append 之 后 才 可 以 进行 文件 的 追加 操作 


setReplication() 


为 一 个 指定 的 文件 修改 块 副本 因子 。 如 果 当 前 副本 因子 小 于 设置 的 
新 副本 因子 ,需要 增加 一 些 块 副本 ,如 果 当 前 副本 因子 大 于 设置 的 新 
副本 因子 ,就 会 删除 一 些 副本 


setPermission() 


为 已 经 存在 的 目录 或 者 文件 设置 给 定 的 操作 权限 


setOwner() 设置 单个 文件 或 者 目录 的 owner 信息 和 group 信息 
abandonBlock() 实现 放弃 对 指定 Block 的 写 入 操作 
实现 对 已 经 打开 的 文件 的 写 操作 ,返回 值 是 可 写 Block 的 位 置信 息 。 
addBlock() 如 果 文 件 比较 大 ,要 写 多 个 Block ,那么 就 会 多 次 调用 该 函数 取得 新 
Block 的 位 置信 息 
complete() 对 指定 文件 的 写 人 操作 完毕 后 调用 该 函数 来 完成 操作 


reportBadBlocks() 


向 NameNode 报告 已 经 损坏 的 Block 信息 
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续 表 
方 法 说 明 
rename() 实现 HDFS 中 的 文件 更 名 操作 
delete() 实现 删除 指定 的 文件 或 者 目录 
mkdirs() 实现 创建 相应 名 称 和 权限 的 文件 夹 
getListingO 实现 查询 指定 文件 夹 的 文件 信息 


renewLease() 


实现 文件 加 锁 , 防 止 其 他 的 Client 对 其 操作 


getStats() 获得 当前 HDFS 的 信息 ,如 总 空间 .已 用 空间 .可 用 空间 等 
获得 当前 系统 中 DataNode 的 状态 。 其 中 ,LIVE 表示 DataNode 存 
getDatanodeReport() 


活 ,DEAD 表示 DataNode 已 死 


getPreferredBlockSize() 


获得 指定 文件 的 块 大 小 


setSafeMode() 


实现 进入 或 者 离开 NameNode 的 安全 模式 


refreshNodes() 


从 NameNode 重新 获取 hosts 信息 和 文件 信息 


finalizeUpgrade() 


告诉 NameNode 完成 更 新 


distributedUpgradeProgress() 


获取 当前 HDFS 的 更 新 状态 


metaSave() 


将 NameNode 的 数据 结构 信息 写 人 到 指定 的 文件 中 。 如 果 文 件 已 经 
存在 , 则 进行 追加 操作 


getFileInfoC) 获得 指定 文件 或 者 文件 夹 的 信息 
fsyncO 把 指定 文件 的 元 数据 同步 到 物理 存储 上 
setTimes() 设置 文件 的 修改 时 间 和 访问 时 间 


注 : Hadoop 2.0 生态 系统 与 Hadoop 1.0 生态 系统 中 ClientProtocol 接口 所 定义 的 
方法 参数 返回 类 型 等 方面 有 所 变化 ,请 读者 根据 实际 需求 去 理解 。 


3. ClientDatanodeProtocol 


ClientDatanodeProtocol 协议 是 Client 进程 与 DataNode 进程 之 间 进 行 通信 所 使 用 的 


协议 。 在 Hadoop 1.0 生态 


系统 中 (以 Hadoop 1. 2. 1 版 本 为 例 ) .ClientDatanodeProtocol 


接口 定义 的 方法 如 图 4.9 所 示 。 


<ainterface>> 
 dientDetanodeProtocol 


° vexzion]D : long = 0 {re 
° LOG : Log Í readonly 


adonly ] 


9 getBlockLocelPathInfo (blo; 
9 recaverBlock (block 
* getElockInfo(block : Bloc! 


iendedBlock, token : Token, ) : BlockLocalPathInfo 
th : boolean, targets : Detenodelnfo[4], ) : LocatedBlock 


k, th 
: Block 


k.) 


4.9 Hadoop 1. 0 生态 系统 中 ClientDatanodeProtocol 类 图 


从 图 4. 9 可 以 看 出 ,ClientDatanodeProtocol 接口 只 定义 了 三 个 方法 , 即 recoverBlock()、 
getBlockInfo() 和 getBlockLocalPathInfo() 方 法 。 其 中 ,recoverBlock() 方 法 用 于 恢复 数据 块 ; 
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getBlockInfoO fI getBlockLocalPathInfo() 方 法 用 于 获得 相应 的 块 信息 。 在 Hadoop 2. 0 生态 
系统 中 ,由 于 HDFS 的 系统 架构 发 生变 化 ,因此 ,ClientDatanodeProtocol 接口 的 方法 有 所 变 
化 ,如 图 4. 10 所 示 的 Hadoop 2.0 生态 系统 中 ClientDatanodeProtocol 类 图 (以 Hadoop 2. 6.0 
版 本 为 例 ) 。 


Interface 


© GientDatanodeProtocol 
° versionID : long = 0 { readonly } 
9 getBlockLocalPathInfo (block : ExtendedBlock, token : Token, ) : BlockLocalPathInfo 
9 getReplicaVisiblelength (b : ExtendedBlock, ) : long 


9 refrechNamenodez () 

9 deleteBlookPool(bpid : String, force : boolean) 

© getHdfsBlocksMetadata (bleckPoolld : String, blocklds : long[*], tokens : List, ) : HdfoBlocksMetadata 
9 shutdomDatancde (forÜpsrede : booleen) 

© gctDatanodeInfo () : DatanodeLocal Info 

9 startReconfiguration () 

* getReconflguratlonStatus () : ReconfigurationTaskSlatus 


图 4.10 Hadoop 2.0 生态 系统 中 ClientDatanodeProtocol 类 图 


从 图 4. 10 可 以 看 出 ,在 Hadoop 2. 0 生态 系统 中 ClientDatanodeProtocol 类 提供 了 
更 为 丰富 的 方法 来 获取 相应 DataNode 的 信息 以 及 对 存储 块 池 (Block Pool) 的 操作 。 


4. NamenodeProtocol 


NamenodeProtocol 协议 用 于 SecondaryNameNode 与 NameNode 之 间 的 通信 ,并 定 
X f SecondaryNameNode 与 NameNode 之 间 进 行 通信 所 需 的 操作 。 其 中 ， 
SecondaryNameNode 是 一 个 用 来 辅助 NameNode 的 服务 器 端 进程 ,主要 是 对 映像 文件 执 
行 特定 的 操作 ,另外 还 包括 获取 指定 DataNode 上 块 的 操作 。 该 接口 定义 的 方法 如 图 4. 11 
和 图 4. 12 所 示 。 


<<interface>> 
© NamenodeProtocol 


° versionlD : long = 0 ( readonly ) 

* getBlocks (datanode : DatanodeInfo, size : long, ) : BlocksWithLocations 
9 getBlockKeys () : ExportedBlockKeys 

9 getEditlogSize () : long 

9 rollEditLog Ü : CheckpointSignature 

9 rollFsImage () 


El 4.11 Hadoop 1. 0 生态 系统 中 NamenodeProtocol 类 图 


其 中 ,getBlocks() 方 法 用 于 获取 DataNode 上 大 小 为 size 的 块 ;getEditLogSize() 方 
法 用 于 获取 EditLog 文件 的 大 小 ;rollEditLog() 方 法 用 于 关闭 当前 EditLog 文件 ,并 重新 
打开 一 个 新 的 EditLog 文件 ;rollFsImage() 方 法 用 于 回 深 FsImage 日 志 。 


5. DatanodeProtocol 


DatanodeProtocol 协议 用 于 DataNode 与 NameNode 之 间 的 通信 ,并 定义 了 
DataNode 与 NameNode 之 间 进 行 通信 所 需 的 操作 ,如 发 送 心跳 报告 和 块 状态 报告 等 。 
该 接口 定义 的 方法 (以 Hadoop 2. 6. 0 版 本 为 例 ) 如 下 所 示 。 
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<<interface>> 


© NamenodeProtocol 


: long = O ( readonly ] 
int = O [ readonly } 
: int = 1 { readonly } 
: int = O { readonly } 
int = 50 { readonly } 
: int = 51 { readonly } 


E 


9 getEditLogManifest (sinceTxId : long, 


9 getBlocks (datanode : DatanodeInfo, size : long, ) : BlocksWithLocations 

9 getBlockKeys () : ExportedBlockKeys 

9 getTransactionID() : long 

9 getMostRecentCheckpointTxId () : long 

9 rollEditLog () : CheckpointSignature 

9 versionRequest () : NamespaceInfo 

9 errorReport (registration : NamenodeRegistration, errorCode : int, msg : String) 

9 registerSubordinateNamenode (registration : NamenodeRegistration, ) : NamenodeRegistration 
9 startCheckpoint (registration : NamenodeRegistration, ) : NamenodeCommand 

* endCheckpoint (registration : NamenodeRegistration, sig : CheckpointSignature) 


RemoteEditLogManifest 


图 4.12 Hadoop 2. 0 生态 系统 中 


public interface DatanodeProtocol ( 
/PatanodeProtocol 版 本 号 
public static final long versionID- 28L; 
/定义 错误 代码 
final static int NOTIFY- 0; 
final static int DISK EFROR- 1; 
final static int INVALID BIOCK- 2; 
final static int FATAL DISK ERROR- 3; 


p 


NamenodeProtocol 类 图 


//there are still valid volumes on IN 


/np valid volumes left on IN 


* 当 接 收 到 DataNode 的 命令 时 ,根据 下 述 状态 码 确定 DataNode 应 该 执行 何 种 操作 


*/ 
final static int INA UNKNOWN- 0; 
final static int DNA TEANSFER- 1; 
final static int INA INVALITATE- 2; 
final static int INA SHJTDOWN- 3; 
final static int INA REGISIER- 4; 
final static int INA FINALIZE- 5; 
final static int INA RECOVEFBLOCK- 6; 
final static int INA ACCESSKEYUEPDIAIE= 7; 
final static int DNA BATANCERBANDWIDIHUPDATE= 8; 
final static int INA CACHE- 9; 
final static int INA UNCACHE- 10; 
// 注 册 Datanode. 
lOExoeption; 
//DataNode 向 Nameode 发送 心跳 状态 报告 


// 未 知 
// 将 数据 块 转移 到 另 一 个 DataNode 
// 未 验证 数据 块 
/关闭 DataNode 
// 重 新 注册 
// 完 成 先前 执行 的 升级 操作 
/数据 块 恢复 操作 请 求 
/更 新 access key 

// 更 改 带宽 
IER 
// 非 缓存 块 


(DatanodeRegistration registration ) throws 


public HeartbeatResponse sendHeartbeat (DatanodeRegistration registration, 
StorageReport [] reports, 
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long dnCacheCapacity, 

long dnCacheUsed, 

int xmitsInProgress, 

int xceiverCount, 

int failedvolumes)throws IOExoeption; 
//DataNode 向 NameNode 发 送 块 状态 报告 
public ”DatanodeCommand blockReport (DatanodeRegistration registration, String  poolld, 
StorageBlockReport[] reports)throws IOExoepticn; 
//DataNode 向 NameNode 22 3€ cache 状态 报告 
public DatanodeOammand cacheReport (DatanodeRegistration registration, String poolld, List« Long» 
blockIds)throws ICException; 
//DataNode 向 NameNode 发 送 已 经 接收 或 删除 Block fri B. 


// 向 NaneNode 发 送 报告 错误 信息 
int errorcode, 

// 向 NameNode 发送 版 本 请 求 信息 
public NamespaceInfo versionRequest ()throws IOException; 
//DataNode 向 NameNode 报告 Bad Blocks 
Public void reportBacBlocks (LocatedBlock[] blocks)throws IOExoeption; 
/在 恢复 数据 块 期 间 ,提交 事务 ,数据 块 同步 

long newgenerationstamp, long newlength, 

boolean closeFile, boolean deleteblock, DatanodeID[] newtargets, 

String[] newtargetstorages)throws ICExoeption; 


6. InterDatanodeProtocol 


InterDatanodeProtocol 协议 用 于 DataNode 5j DataNode 之 间 的 通信 ,并 定义 了 
DataNode 与 DataNode 之 间 进 行 通信 所 需 的 操作 ,如 DataNode 节点 之 间 块 副本 的 复制 
操作 。 该 接口 定义 的 方法 如 图 4. 13( 以 Hadoop 1. 2. 1 版 本 为 例 ) 和 图 4. 14( 以 Hadoop 
2. 6. 0 版 本 为 例 ) 所 示 。 

从 图 4.13 可 以 看 出 ,在 Hadoop 1.0 生态 系统 中 InterDatanodeProtocol 类 提供 了 三 
个 方法 ,主要 功能 是 获取 指定 块 的 元 数据 ,并 更 新 数据 块 。 

从 图 4. 14 可 以 看 出 ,在 Hadoop 2.0 生态 系统 中 InterDatanodeProtocol 类 提供 了 两 
个 方法 ,主要 功能 是 初始 化 要 恢复 的 数据 块 , 并 更 新 数据 块 。 虽 然 Hadoop 2. 0 生态 系统 中 
InterDatanodeProtocol 接口 提供 的 方法 与 Hadoop 1. 0 生态 系统 中 InterDatanodeProtocol £ 
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< >> 
© mterDatanodeProtocol 


° LOG : Log ( readonly } 
° i : long = O ( readonly } 


9 getBlockMetaDataInfo (block : Block, ) : BlockMetaDataInfo 
9 startBlockRecovery (block : Block, ) : BlockRecoveryInfo 
9 updateBlock(oldblock : Block, newblock : Block, finalize : boolean) 


图 4.13 Hadoop 1. 0 生态 系统 中 InterDatanodeProtocol 类 图 


«interfaces 
 interbatanodeProtocol 


° LOG : Log ( readonly ) 

° zerzisnID : long = O ( readonly ) 

9 initReplissRecovery (Block : RecoveringBlock, ) : ReplicaRecoreryInfo 

9 updateReplicaUnderRecovery (oldBlook : ExtendedBlook, recoveryid : long, newlength : long, ) : String 


图 4.14 Hadoop 2.0 生态 系统 中 InterDatanodeProtocol 类 图 


口 提供 的 方法 有 所 不 同 ,但 实现 的 功能 是 完全 相同 的 。 

上 面 对 不 同 进 程 之 间 通 信 所 使 用 的 协议 的 接口 进行 了 分 析 , 请 读者 了 解 每 种 协议 的 
应 用 场景 。 如 果 想 要 基于 某 种 场景 实现 RPC 通信 ,可 以 选择 合适 的 协议 接口 来 实现 这 些 
接口 。 
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RPC Client 通过 Socket 将 调用 的 业务 方法 和 参数 传送 至 Server 端 ,并 等 待 Server 
端的 响应 。RPC Client 在 Hadoop 中 的 实现 为 一 个 类 : org. apache. hadoop. ipc. Client， 
该 类 使 用 Java 的 动态 代理 技术 ,生成 Server 端的 业务 接口 的 代理 。RPC Client 端的 
RPC 调用 处 理 过 程 如 图 4. 15 所 示 。 


| RPC Client Call Queue 
I 
| > 
request | 
| 


writable/protobuf 


request 


response 


W object 
1 Waiting H Converter | 
I 


图 4.15 Client 38 RPC 调用 处 理 过 程 


从 图 4. 15 可 以 看 出 ,Client 端 RPC 调用 的 处 理 过 程 由 一 系列 实体 组 成 ,各 实体 分 工 
明确 。Client 首先 创建 一 个 通 向 Server 端的 连接 Connection ,并 用 Call 封装 好 调用 信息 
放 入 Call Queue 中 ,这 样 Client 就 可 以 同时 发 生 很 多 调用 ,每 个 调用 用 ID 来 识别 。 然 
后 ,Client 通过 Socket 将 Connection 序列 化 后 的 调用 信息 (调用 信息 是 Client 的 调用 方 ， 
如 NameNode 或 DataNode 指定 ) 发 送 到 Server 端 ,并 等 待 结 果 。 最 后 ,Connection 读 取 
Server 端的 返回 信息 ,等 待 Connection 接收 完 响应 返回 。 
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RPC Client 类 提供 的 最 基本 的 功能 就 是 进行 RPC 调用 ,是 RPC Client 端的 实现 和 
入 口 类 。 在 Hadoop 1.0 生态 系统 中 ,该 类 定义 了 5 个 内 部 类 来 完成 该 功能 , 即 Client. 
Call, Client. Connectionld, Client. ParalelResults, Client. Connection 和 Client. 
ParallelCall 3$, rf Client. Call 是 Client 端 调用 的 一 个 抽象 ,定义 了 一 次 调用 所 需要 
的 条 件 , 以 及 修改 Client 端的 一 些 全 局 统计 变量 , 主要 用 于 存储 Call 调用 信息 ; Client. 
ConnectionId 是 一 个 连接 的 实体 类 ,标识 了 一 个 连接 实例 的 Socket 地 址 .用户 信息 和 连 
接 协 议 类 ,主要 用 于 标识 到 RPC Server 端的 连接 对 象 ;Client. ParallelResults 类 是 用 来 
收集 在 并 行 调用 环境 中 结果 的 实体 类 ,主要 用 于 存储 响应 信息 ;Client. ParallelCall 类 继 
承 于 内 部 类 Call, 返 回 值 使 用 ParallelResults 实体 类 来 封装 ;Client. Connection 类 是 一 个 
连接 管理 内 部 的 线程 类 ,继承 自 Thread 类 ,主要 用 于 接收 数据 、 解 析 数 据 包 。 在 Hadoop 
2.0 生态 系统 中 ,RPC Client 类 内 部 定义 了 4 个 内 部 类 来 完成 RPC 调用 功能 , 即 Client. 
Call,Client. ClientExecutorServiceFactory Client. Connection 和 ConnectionId 类 (具体 


实现 细节 请 查看 源码 ) 。 
453 RPC Server 


RPC Server 通过 Socket 监听 Client 端的 请 求 , 获 取 Client 端 需要 调用 的 方法 和 参 
数 之 后 ,使 用 Java 反射 机 制 来 调用 相对 应 的 方法 ,并 且 将 结果 返回 到 Client 端 。RPC 
Server 在 Hadoop 中 的 实现 为 一 个 类 : org. apache. hadoop. ipc. Server, RPC Server 端 
的 RPC 调用 处 理 过 程 如 图 4. 16 所 示 。 


request 
— 
-——---- 

response 


从 图 4. 16 可 以 看 出 ,首先 Client 发 送 TCP 连接 ,启动 Listener 进程 ,用 来 接收 RPC 
Client 的 连接 请 求 和 数据 ,如 果 收 到 需要 建立 连接 的 请 求 , 将 建立 连接 并 捕获 读 操 作 的 命 
令 。 然 后 ,Listener 进程 收 到 读 操作 命令 后 ,把 Client 端 发 过 来 的 调用 信息 委派 给 
Connection, Connection 把 调用 信息 封闭 到 Call 对 象 中 ,并 放 入 Call Queue 队列 中 ,等 
待 Handler 处 理 。 最 后 ,Server 启动 指定 数目 的 Handler 线程 ,处 理 来 自 Client 端 对 指定 
方法 调用 的 请 求 .并 把 结果 写 人 到 Call Response Queue 队列 中 ,并 调用 Responder 将 结 
果 写 人 Client 端 。 

RPC Server 类 是 Server 端的 抽象 实现 :定义 了 一 个 抽象 的 IPC 服务 。 该 IPC 服务 
接收 Client 端 发 送 的 参数 值 , 并 返回 响应 值 。 在 Hadoop 1. 0 生态 系统 中 ,Server 类 定义 


Y 6 个 内 部 类 , 即 Server. Call, Server. Connection, Server. Listener, Server. Handler, 


[Handler ) … ( Handler 


` : n 
M, write Z 


4.16 Server 端 RPC 调用 处 理 过 程 
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ExceptionsHandler 和 Server. Responder 32$, rf Server. Call 类 是 Server 端 使 用 队列 
维护 的 调用 实体 类 ,其 属性 包括 Client 端 调用 Call 的 ID, Client 端 调 用 传递 的 参数 
param Client 端的 连接 实例 connection 等 信息 ,主要 用 于 存储 Client 端的 Call 信息 ; 
Server. Connection 维护 了 一 个 来 自 Client 端的 Socket 连接 ,主要 用 于 接收 数据 、 解 析 数 
据 包 ;Server. Listener 类 继承 自 Thread 线程 类 ,主要 用 于 接收 Client 端的 连接 请 求 ,并 
为 Handler 创建 处 理 任务 ;Server. Handler 类 是 一 个 处 理 线程 类 ,从 Call Queue 队列 中 
获取 调用 信息 ,然后 反射 调用 真正 的 对 象 并 得 到 结果 ,再 把 此 次 调用 放 到 响应 队列 Call 
Response Queue 里 ;Server. Responder 类 是 实现 发 送 RPC 响应 到 Client 端 , 它 不 断 地 检查 响 
应 队列 中 是 否 有 调用 信息 ,如 果 有 调用 信息 ,就 把 调用 的 结果 返回 给 Client 端 。 在 Hadoop 
2.0 生态 系统 中 , Server 类 定义 了 9 个 内 部 类 , 即 Server. WrappedRpcServerException、 
Server. Listener, Server. Handler, Server. Call, Server. Connection, Server. ConnectionManager、 
ExceptionsHandler,Server. RpcKindMapValue 和 Server. Responder 类 ,其 Server 核心 
功能 的 实现 主要 依赖 于 Listener, Handler, Call, Connection 和 Responder 类 (具体 实现 细 
节 请 查看 源码 ) 。 

总 而 言 之 , Hadoop 1. 0 生态 系统 中 的 RPC 结构 比较 简单 ,实现 类 也 只 有 6 个 ,而 
Hadoop 2.0 生态 系统 中 的 RPC 相对 来 说 比较 复杂 ,实现 了 三 十 多 个 类 ,最 主要 的 改变 是 
序列 化 与 反 序列 化 不 再 采用 Writable 接口 ,而 是 采用 PB(Protocol Buffer) ,底层 的 动态 
代理 (Dynamic Proxy) 以 及 TCP 连接 等 变化 不 大 。 
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Hadoop 中 的 org. apache. hadoop. ipc. RPC 类 利用 Java 的 动态 代理 (Dynamic 
Proxy) 与 反射 机 制 (Reflect) 实 现 了 RPC 通信 。 其 中 ,动态 代理 类 是 由 java. lang. reflect. 
Field java. lang. reflect. Proxy 和 java. lang. reflect. InvocationHandler 类 在 运行 期 间 根 
据 接口 ,采用 Java 反射 机 制 实现 的 ;生成 的 动态 代理 类 并 不 负责 实际 的 处 理工 作 , 只 负责 
将 该 类 上 的 所 有 方法 的 调用 传递 到 java. lang. reflect. InvocationHandler. 由 
InvocationHandler 来 处 理 Client 端的 请 求 。org. apache. hadoop. ipc. RPC 类 是 对 Server 
和 Client 的 具体 化 ,并 对 外 主要 提供 了 两 种 接口 , 即 getProxy/waitForProxy() 和 RPC. 
Builder. build()。 其 中 ,getProxy/waitForProxy() 用 于 构造 一 个 Client 端 代理 对 象 , 并 
向 Server 端 发 送 RPC WOR., 如 果 要 销毁 Client 端 代理 ,只 提供 了 一 个 方法 , B 
stopProxy;RPC. Builder. build() 用 于 构造 一 个 Server 端 对 象 ,用 于 处 理 Client 端 发 送 来 
的 请 求 。 

以 Hadoop 2. 0 生态 系统 为 例 (Hadoop 2. 6.0 版 本 ) ,介绍 Client 端 与 Server 端 之 间 
的 RPC 通信 的 代码 实现 。 要 实现 Client 端的 动态 代理 就 需要 调用 PRC 类 的 getProxyO ,该 
方法 最 终 调 用 Java 动态 代理 的 方法 创建 一 个 代理 类 ,并 创建 了 InvocationHandler 的 实 
例 。PRC 类 的 getProxy() 方 法 代码 实现 如 下 。 


public static < T^ T getProxy (Class< T» protocol, 
long clientVersicn, 


C 深入 浅 出 大 数据 


InetSocketAddress addr, Configuration conf, 
SocketFactory factory)throws IOException ( 
retum getProtocolProxy ( 
protocol, clientVersion, addr, conf, factory) .get Proxy () ; 


通过 getProxy() 创 建 的 InvocationHandler 实例 用 于 Client 端 向 Server 端 发 送 RPC 
请 求 以 及 获取 响应 。 该 实例 是 由 RPC 类 中 的 RpcInvoker 实现 的 ,其 代码 实现 如 下 。 


interface RpcInvoker ( 
pex 


* 


Process a client call on the server side 

* Q param server the server within whose context this rpc call is made 
* G param protocol- the protocol name (the class of the client proxy 
* used to make calls to the rpc server. 

* QGparanrpcequest -deserialized 

* f param receiveTime time at which the call received(for metrics) 
* Qretum the call's retum 

@ throws ICException 

*x/ 

public Writable call (Server server, String protocol, 

Writable rpcRequest, long receiveTime)throws Exception ; 


* 


) 


RPC Server 端的 构建 则 由 RPC 静态 内 部 类 RPC. Builder 实现 ,该 类 提供 了 一 些 set 
xxx 方 法 供用 户 设置 一 些 基 本 参数 ,如 RPC 协议 、RPC 协议 实现 对 象 等 。 当 设置 完 这 些 
参数 后 ,可 通过 调用 RPC. Builder. build() 方 法 完成 Server 端 对 象 的 创建 。RPC. Builder 
代码 实现 如 下 。 


public static class Builder { 
private Class< ?> protocol- null; 
private String bindAddress- "0.0.0.0"; 
private int port- 0; 
private int nmHandlers= 1; 
private int numReaders- - 1; 
private int queueSizePerHandler- - 1; 
private boolean verbose- false; 
private final Configuration conf; 
private SecretManager« ? extends TokenTdentifier» secretManager- null; 
private String portRangeConfig= null; 


public Builder (Configuration conf){ 


RPC. Builder 创建 了 一 个 RPC Server. iij RPC Server 的 具体 实现 是 由 PRC 的 内 部 
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静态 类 Server 继承 org. apache. hadoop. ipc. Server 类 实现 的 (RPC. Server 的 具体 实现 代 
码 请 查看 org. apache. hadoop. ipe. RPC 类 中 的 静态 类 Server) 。 

当 不 需要 Client 代理 时 ,可 以 使 用 RPC 类 中 的 stopProxy () 方 法 取消 代理 。 
stopProxy() 方 法 的 实现 代码 如 下 。 


Public static void stopProxy (Cbject proxy) { 
if(proxy-— null) ( 

throw new Hadocpl legalArgumentExoeption ( 

"Cannot close proxy since it is null"); 
) 
uyí 

if (proxy instanceof Closeable) { 
((Closeable)proxy) .close 0 ; 
retum; 

) else ( 
InvocationHandler handler= Proxy .getInvocatianHandler (proxy) ; 
if (handler instanceof Closeable) { 

((Closeable)handler) .close () ; 
retum; 
) 
) 
) catch (IGExcepticn e) ( 
IOG.error ("Closing proxy or invocation handler caused exception", e); 
) catch (L11egalArgurentExcepticn e) ( 
IOG.error ("REC.stopProxy called on non proxy: class= "+ proxy.getClass () .getName () , e); 
) 


throw new HadoxpIilegalArgarentExoeption ( 
"Cannot: close proxy- is not Closeable or " 
+ "does not provide closeable invocation handler " 
* proxy.getClass 0); 


4.6 HDFS 安全 机 制 


系统 的 安全 机 制 一 般 由 认证 (Authentication) 和 授权 (Authorization ) 两 部 分 组 成 。 
在 Hadoop 1. 0 生态 系统 中 ,最 初版 本 的 Hadoop 并 没有 安全 机 制 可 言 。 虽 然 在 Hadoop 
0.16 版 本 后 ,HDFS 增加 了 文件 和 目录 权限 ,但 是 并 没有 实现 强 认 证 ,从 而 导致 恶意 用 户 
伪装 成 真正 的 用 户 人 侵 到 Hadoop 集群 自 改 文件 和 目录 权限 , 算 改 HDFS 上 的 数据 ,以 及 
伪装 NameNode 等 。 在 Hadoop 2.0 生态 系统 中 ,Hadoop 提供 了 两 种 认证 机 制 和 一 种 授 
权 机 制 。 下 面 将 以 Hadoop 2.0 生态 系统 为 例 ( 以 Hadoop 2. 6.0 stable 版 本 为 例 ) ,分别 
对 Hadoop 所 提供 的 授权 机 制 和 认证 机 制 进 行 讲解 。 
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461 授权 机 制 


Hadoop 的 授权 机 制 是 通过 引入 访问 控制 列表 (Access Control List, ACL) 实 现 的 。 
Hadoop 通过 制定 接口 协议 的 方式 来 实现 节点 之 间 服 务 调用 的 逻辑 ,每 个 协议 指定 的 一 
组 服务 ,再 基于 用 户 组 来 确定 是 否 有 权限 执行 某 一 种 协议 所 包含 的 集合 。 如 果 需 要 启动 
该 授权 方式 ,首先 需要 在 Hadoop 的 配置 文件 $HADOOP_HOME/etc/Hadoop/core- 
site. xml 中 增加 以 下 配置 内 容 。 


«description» Is service- level authorization enabled?« /description> 
< /property» 


其 中 ,hadoop. security. authorization 默认 值 为 false, 将 false 改 为 true。 设 置 完成 后 , 需 
要 将 core-site. xml 同步 到 集群 中 的 所 有 机 器 ,并 重新 启动 Hadoop 集群 。 
然后 ,需要 在 配置 文件 $ HADOOP_HOME/etc/ Hadoop/hadoop-policy. xml 中 ,对 ACL 
进行 详细 配置 。 该 配置 文件 hadoop-policy. xml 可 以 实现 对 HDFS, MapReduce 和 YARN 进 
行 ACL 配置 ,其 中 与 HDFS 有 关 的 配置 项 和 协议 之 间 的 对 应 关系 如 表 4. 3 所 示 。 
表 4.3 配置 项 与 协议 之 间 的 对 应 关系 
配 置 项 协 议 名 


ClientProtocol 


security. client. protocol. acl 


security. client. datanode. protocol. acl 


ClientDatanodeProtocol 


security. datanode. protocol. acl 


DatanodeProtocol 


security. inter. datanode. protocol. acl 


InterDatanodeProtocol 


security. namenode. protocol. acl 


NamenodeProtocol 


security. admin. operations. protocol. acl 


AdminOperationsProtocol 


security. refresh. user. mappings. protocol. acl 


RefreshUserMappingsProtocol 


security. refresh. policy. protocol. acl 


RefreshAuthorizationPolicyProtocol 


HAServiceProtocol 
ZKFailoverController 


security. ha. service. protocol. acl 


security. zkfc. protocol. acl 


QjJournalProtocol 


HScClientProtocol 


security. qjournal. service. protocol. acl 


security. mrhs. client. protocol. acl 


其 中 ,ClientProtocol 是 用 户 进程 与 NameNode 交互 协议 ,用 来 操作 Namespace. LA. 
打开 /关闭 文件 流 等 ;ClientDatanodeProtocol 是 Client 端 与 DataNode 交互 协议 ,用 来 实 
现 数据 恢复 ; DatanodeProtocol 是 DataNode 与 NameNode 之 间 的 通信 协议 ,用 来 实现 
DataNode 和 NameNode 之 间 所 需 的 操作 ; InterDatanodeProtocol 是 DataNode 之 间 进 行 通信 
的 协议 ,用 来 更 新 Block 副本 ;NamenodeProtocol 是 SecondaryNameNode 与 NameNode 进行 
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通信 的 协议 ,用 来 获取 NameNode 的 状态 信息 ;AdminOperationsProtocol 是 HDFS 管理 操作 
协议 ; RefreshUserMappingsProtocol 用 来 刷新 缓存 中 用 户 与 用 户 组 映射 关系 信息 ; 
RefreshAuthorizationPolicyProtocol 用 来 更 新 认证 策略 (Authorization Policy) 配 置 ,对 应 
于 配置 文件 /etc/hadoop/hadoop-policy. xml, 控 制 执行 hdfs dfsadmin -refreshServiceAcl 
和 yarn rmadmin -refreshServiceAcl 的 权限 ; HAServiceProtocol 是 HDFS HA 操作 协 
议 , 用 来 管理 Active NameNode 与 Stand-by NameNode 状态 ; ZKFailoverController 是 
ZooKeeper Failover 控制 器 操作 权限 协议 , 用 于 HDFS HA; QJournalProtocol 是 
QuorumJournalManager 与 JournalNode 之 间 通 信和 的 协议 ,用 于 HDFS HA, 用 来 同步 
edits ,并 协调 Active NameNode 与 Stand-by NameNode 状态 ;HSClientProtocol 是 Client 
端 与 MR History Server 之 间 通 信 的 协议 ,用 来 查看 Job 历史 信息 。 

注 : 由 于 不 同 Hadoop 版 本 的 配置 文件 hadoop-policy. xml 中 的 配置 项 有 所 不 同 ,为 
了 方便 读者 理解 ,本 实例 是 以 Hadoop 2.6. 0 版 本 为 例 。 

在 本 实例 的 配置 文件 hadoop-policy. xml 中 与 HDFS 有 关 的 默认 配置 内 容 如 下 。 


HoP ,<value> * 所/value> 表 示 所 有 用 户 都 具有 对 应 的 服务 操作 权限 。 如 果 要 实现 不 
同 用 户 或 用 户 组 具有 不 同 的 授权 时 ,就 需要 根据 实际 需求 进行 配置 。 为 了 方便 读者 理解 ， 
下 面 举 几 个 示例 来 说 明 。 

如 果 只 允许 hadoop 用 户 具有 修改 ACL 授权 权限 的 配置 ,可 以 配置 如 下 。 
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如 果 只 运行 属于 某 个 组 内 的 所 有 用 户 ( 假 定 为 datanodes_users 用 户 组 ) 可 以 运行 
DataNode 和 NameNode 进行 通信 ,可 以 配置 如 下 。 


<property> 
< name» security.datanode.protocol .acl< /name> 
«value» [空格 ] datanodes users< /value> 

< /property> 


如 果 只 允许 某 个 组 内 的 某 个 用 户 (假定 为 hdfs_client 用 户 组 下 的 hdfs_userl JH P) 
具有 操作 HDFS 权限 ,可 以 配置 如 下 。 


«property» 
< name» security.client.protoocol .acl< /name» 
«value» hdfs userl < /value> 

< /praperty» 


如 果 人 允许 所 有 的 用 户 访问 集群 上 的 HDFS ,可 以 配置 如 下 。 


pem : 
«property» 
«name» security.client.protoool.acl« /name» 
«value» * < /value» 
< property» 


为 了 保证 Hadoop 集群 的 配置 相同 ,需要 将 修改 后 的 配置 文件 同步 到 整个 集群 的 所 
有 节点 上 。 如 果 修改 了 有 关 NameNode 的 服务 配置 ,可 以 使 用 下 面 的 命令 来 动态 加 载 。 


hdfs dfsadmin - refreshservicencl 


ik: 在 配置 hadoop-policy. xml 文件 时 需要 注意 ,如 果 配 置 项 中 既 有 用 户 ,又 有 用 户 
组 ,配置 内 容 格式 为 : userl、user2 groupl、group2; 如 果 只 有 用 户 组 ,配置 内 容 前 面 需要 
增加 一 个 空格 ,如 : [空格 ]groupl、group2。 


462 认证 机 制 


在 HDFS 中 , 当 用 户 需 要 读 写 Hadoop 集群 上 的 文件 时 ,需要 实现 NameNode 认证 ; 
当 Client 需要 读 写 DataNode 数据 时 ,同样 也 需要 DataNode 的 认证 ; 当 DataNode 与 
NameNode 进行 交互 以 及 SecondNameNode 与 NameNode 进行 交互 时 ,都 需要 
NameNode 的 认证 。 在 Hadoop 2.0 生态 系统 中 ,Hadoop 给 出 了 两 种 认证 机 制 : Simple 
机 制 和 Kerberos 机 制 。 其 中 ,Simple 机 制 是 一 种 JAAS 协议 与 Delegation Token 整合 机 
制 ;Kerberos 机 制 用 于 Client 与 NameNode 初次 通信 以 及 DataNode 与 NameNode 之 间 
的 认证 。 
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1. Simple 机 制 


Simple 机 制 是 JAAS 协议 (Java Authentication and Authorization Service, Java 认证 
和 授权 服务 ) 与 Delegation Token 整合 机 制 , Hadoop 默认 采用 Simple 机 制 。 该 机 制 的 配 
置 可 以 通过 修改 配置 文件 $ HADOOP. HOME/etc/Hadoop/core-site. xml 中 的 hadoop. 
security. authentication 参数 进行 设置 。 有 关 配 置 文件 core-site. xml 中 hadoop. security. 
authentication 参数 的 默认 配置 如 下 所 示 。 


«description» Possible values are simple (no authentication), and kerberos 
< /eroperty> 


如 在 一 个 HDFS 读 操作 过 程 中 , 当 Client 与 NameNode 之 间 第 一 次 RPC 调用 时 ,并 
没有 Delegation Token 生成 ,所 以 需要 Kerberos 认证 。 一 旦 通过 认证 ,Client 将 会 从 
NameNode 中 获得 一 个 Delegation Token( 访 问 不 同 模块 有 不 同 的 Delegation Token), 
之 后 的 任何 操作 都 将 采用 Simple 机 制 。 比 如 访问 文件 , 均 要 检查 该 Token 是 否 存在 , 且 
使 用 者 跟 之 前 注册 使 用 该 Token 的 用 户 是 否 一 致 ,其 具体 过 程 为 : Client 会 使 用 一 个 特 
殊 的 Delegation Token. 叫做 Block Access Token, Client 使 用 这 个 Token 来 向 
DataNode 认证 自己 (NameNode 和 DataNode 之 间 共 享 这 个 Token) ,如 果 认 证 成 功 ,该 
Block 就 能 被 持 有 这 个 Token 的 Client 端 进行 访问 了 。 

目前 常用 的 Simple 机 制 认证 的 方式 有 以 下 两 种 。 

COD 用 户 名 /密码 认证 。 这 是 一 种 常用 方式 , 当 用 户 数量 比较 多 时 ,可 以 采用 SQL/ 
LDAP 认证 方式 。 这 种 方式 通常 性 能 较 好 。 

(2) 机 器 地 址 过 滤 。 这 种 方式 通常 有 两 种 具体 的 实现 , 即 黑 名 单列 表 和 白 名 单列 表 。 
黑 名 单列 表 : 机 器 不 能 访问 ; 白 名 单列 表 : 机 器 能 够 访问 。 这 种 方式 尽管 配置 简单 ,但 是 
部 署 比较 麻烦 ,通常 表现 在 : 一 次 修改 到 处 部 署 。Hadoop 通过 配置 hdfs-site. xml 文件 
中 的 配置 参数 : dfs. hosts (允许 访问 NameNode) 和 dfs. hosts. exclude (不 允许 访问 
NameNode) 实 现 此 种 方式 。 但 Hadoop 默认 并 不 使 用 ,其 默认 配置 如 下 。 


«value» « /Value> 
< description» Names a file that contains a list of hosts that are 
mustbe specified. IF” the value is empty, all hosts are 
pemitted.< /description» 

< property» 
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«property» 
< name» dfs.hosts.exclude« /name> 
«value» < /value» 
< description» Names a file that contains a list of hosts that are 
not permitted to connect to the namenode. The full pathname of the 
filemustbe specified. If the value is empty, no hosts are 
excluded.« /description» 

< /property» 


2. Kerberos 机 制 


Kerberos 认证 机 制 是 一 个 基于 共享 密 钥 对 称 加 密 的 安全 网 络 认 证 系统 , 它 避 免 了 将 
密码 在 网 上 传输 ,而 是 将 密码 作为 对 称 加 密 的 密 钥 ,通过 能 不 能 解密 来 验证 用 户 的 身份 。 
在 Hadoop 中 , Kerberos 认证 机 制 默认 是 关闭 的 ,可 将 配置 文件 core-site. xml 中 的 
hadoop. security. authentication 参数 设 为 “kerberos”( 默 认 值 为 “simple”) 来 启动 它 , 其 配 
置 内 容 如 下 。 

«property» 

< name» hadoop. security.authentication« /name> 

< value» kerberos« /value» 

< description» Possible values are simple (no authentication), and kerberos 
< /description» 

< /property» 


要 为 HDFS 添加 Kerberos 认证 机 制 , 除 需要 修改 hadoop. security. authentication 的 
配置 参数 外 ,还 需要 修改 该 文件 中 的 其 他 配置 参数 、hdfs-site. xml 中 的 相应 参数 以 及 
“/etc/krb5. conf” 等 配置 。 其 中 ,core-site. xml 和 hdfs-site. xml 中 需要 修改 的 配置 参数 
如 表 4.4 所 示 。 


表 4.4 配置 项 及 参数 值 


配 置 m 参 考 值 配置 文件 
hadoop. security. authorization true core-site. xml 
hadoop. security. authentication kerberos core-site. xml 
dfs. block. access. token. enable true hdfs-site. xml 
dfs. namenode. keytab. file /xx/xx/hadoop. keytab hdfs-site. xml 
dfs. namenode. kerberos. principal hadoop/_HOST@HADOOP. COM hdfs-site. xml 
a e kerberos. internal. spnego. | HTTP/ HOST@HADOOP. COM | hdfs-site. xml 
dfs. datanode. keytab. file / xx/ xx/ hadoop. keytab hdfs-site. xml 
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续 表 

配 置 项 参 考 值 配置 文件 
dis: datsnade: kerberss: priueipal hadoop/ HOSTGHADOOP.COM | hdfs-site. xml 
dfs. datanode. address 1004 (小 于 1024) hdfs-site. xml 
dfs. datanode. http. address 1006 (小 于 1024) hdfs-site. xml 
dfs. journalnode. keytab. file /xx/ xx/hadoop. keytab hdfs-site. xml 
dfs. journalnode. kerberos. principal hadoop/_HOST@ HADOOP. COM hdfs-site. xml 
T kerberos. internal. spnego | HTTP/ HOST@HADOOP. COM | hdfs-site. xml 


ik: 表 4.4 的 配置 中 keytab 6, # host 和 对 应 节点 的 名 字 , 以 及 它们 之 间 的 密 钥 ) 文 
件 使 用 绝对 路 径 ,principal( 被 认证 的 实体 ,包含 一 个 名 字 和 口令 ) 使 用 _ HOST, Hadoop 
会 自动 替换 为 对 应 的 域名 。 

Kerberos 认证 机 制 至 少 需要 有 三 个 角色 : 认证 服务 器 (Authentication Server, AS), 
Kerberos 客户 端 (Client) 和 Kerberos 服务 器 (Server) Kerberos 的 认证 机 制 如 图 4.17 
所 示 o 


Authentication Server 


图 请 求 验证 


回 返 回 请 求 
Client Server 


4.17 Kerberos 认证 机 制 


1) 请 求 Ticket 

Client 向 认证 服务 器 AS 发 送 自己 的 身份 信息 ,并 请 求 Ticket( 包 括 客户 标识 、 会 i 
密 钥 .时 间 戳 等 记录 信息 )。 

2) 返回 Ticket 

认证 服务 器 AS 在 验证 完 Client 身份 后 ,会 随机 生成 一 个 密码 (Session Key) ,并 生成 
两 个 Ticket( Ticket Granting Ticket 和 Service Ticket) 返 回 给 Client。 其 中 ,一 个 Ticket 
是 给 Client 的 , 另 一 个 Ticket 是 给 Server 的 (认证 服务 器 AS 并 不 是 把 Ticket 直接 给 
Server ,而 是 先 交 给 Client, 再 由 Client 交 给 Server) 。 

3) 发 送 请 求 

Client 拿 到 第 二 步 中 的 两 个 Ticket 后 ,用 自己 的 密码 解 开 Client Ticket, 并 生成 一 个 
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认证 因子 (Authenticator) , Client 将 认证 因子 发 给 Server 的 Ticket 同时 发 送 给 Server. 

4) 请 求 验 证 

Server 收 到 Ticket 和 Authenticator 之 后 ,用 自己 的 密码 解 开 Server Ticket ,并 解 开 
Authenticator。Server 对 这 些 信 息 进行 验证 ,如 果 信 息 正确 , 则 Client 就 通过 了 认证 。 

5) 返回 请 求 

Client 认证 成 功 后 ,Server 选择 性 地 给 Client 回复 一 条 消息 来 完成 双向 认证 。 

Kerberos 是 一 种 性 能 较 高 的 认证 机 制 ,并 且 能 够 进行 数据 加 密 。 但 对 于 Hadoop 中 
的 HDFS 而 言 ,用 户 的 认证 比较 复杂 ,以 及 HDFS 数据 传输 加 密 等 情况 ,采用 Kerberos 
认证 需要 分 别 对 其 进行 配置 ,使 得 Hadoop 更 难以 管理 并 且 很 容易 出 错 。 因 此 ,如 果 
Hadoop 要 具备 生产 环境 真正 的 安全 能 力 ,可 以 集成 第 三 方 认 证 系统 或 采用 其 他 有 创造 
性 的 方法 。 


4.7 ”HDFS 容错 机 制 


HDFS 文件 系统 在 设计 之 初时 就 假设 系统 故障 (服务 器 、 网 络 及 存储 故障 等 ) 为 常态 
现象 ,即使 某 些 节点 发 生 故 障 时 ,整个 集群 的 工作 都 不 会 受到 影响 。 因 此 ,HDFS 要 通过 
多 方面 的 方法 来 保证 其 容错 能 力 ,如 HDFS 数据 块 的 多 副本 存储 机 制 .NameNode 的 单 
点 失效 解决 机 制 . 在 NameNode 和 DataNode 之 间 维 持 心跳 检测 检测 文件 块 的 完整 性 、 
集群 的 负载 均衡 等 。 


471 副本 策略 


一 般 情 况 下 ,HDFS 集群 是 由 多 个 机 架 上 的 机 器 共同 组 成 的 一 个 分 布 式 集群 ,机 架 内 
部 机 器 之 间 的 网 络 速度 通常 都 会 高 于 跨 机 架 机 器 之 间 的 网 络 速度 ,而 且 机 架 之 间 机 器 的 
网 络 通信 通常 也 会 受到 上 层 交 换 机 间 网 络 带宽 的 限制 。 因 此 ,副本 的 存放 策略 至 关 重 要 ， 
将 影响 到 HDFS 的 可 靠 性 和 可 用 性 。HDFS 采用 了 一 种 基于 机 架 感 知 (Rack-awareness) 
的 副本 策略 来 改进 数据 的 可 靠 性 .可 用 性 和 网 络 带宽 的 利用 率 。 在 Hadoop 1. 0 生态 系 
统 和 Hadoop 2. 0 生态 系统 中 ,HDFS 默认 创建 的 副本 数 为 3 ,其 副本 存储 策略 如 下 。 

(1) 第 一 个 block 副本 存放 在 Client 节点 所 在 的 DataNode 中 ,如 果 Client 节点 不 在 
集群 范围 内 , 则 这 个 DataNode 是 随机 选择 的 。 

(2) 第 二 个 副本 存放 在 与 第 一 个 DataNode 不 同 的 机 架 中 随机 选择 的 DataNode 中 。 

G) 第 三 个 副本 存放 在 与 第 一 个 副本 所 在 DataNode 同一 机 架 的 另 一 个 
DataNode rf, 

如 果 还 有 更 多 副本 ,在 遵循 以 下 限制 的 前 提 下 随机 放 在 集群 的 DataNode 中 。 

(1) 一 个 节点 最 多 放置 一 个 副本 ; 

(2) 满足 副本 数 少 于 两 倍 机 架 数 的 情况 下 ,不 可 以 在 同一 机 架 放 置 超过 两 个 副本 。 

这 种 策略 减少 了 机 架 之 间 的 数据 传输 ,提高 了 HDFS 写 操作 的 效率 。 由 于 机 架 的 故 
障 率 远 远 小 于 节点 的 故障 率 , 所 以 这 种 策略 不 会 影响 到 数据 的 可 靠 性 和 可 用 性 。 同 时 ,这 

副本 策略 对 一 个 数据 块 的 写 操作 需要 传输 多 个 该 数据 块 的 副本 到 不 同 机 架 , 从 而 增加 
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了 写 数据 的 代价 。 

默认 情况 下 ,HDFS 并 没有 启用 基于 机 架 感 知 的 副本 策略 ,可 在 配置 文件 core-site. 
xml 中 修改 相应 的 配置 项 来 启动 该 功能 。 本 实例 以 Hadoop 2. 0 生态 系统 为 例 ( 以 
Hadoop 2. 6. 0 stable 版 本 为 例 ) ,来 说 明 HDFS 中 基于 机 架 感 知 的 副本 策略 的 启用 过 程 
(请 查看 本 书 配套 资料 中 Demo/RackAware 文件 夹 中 的 相关 内 容 )。 


1. 配置 core-site. xml 


首先 要 开启 HDFS 的 基于 机 架 感 知 的 副本 策略 的 功能 ,可 对 core-site. xml 中 的 net. 
topology. node. switch. mapping. impl HLÆR A MÆ) net. topology. script. file. name 
(机 架 感知 脚本 位 置 ) 和 net. topology. script. number. args( 机 架 感 知 脚本 管理 的 主机 数 ) 
进行 配置 ,来 启用 该 功能 ,其 具体 的 配置 内 容 如 下 。 


«property» 
< name» net..tcpology node. switch.mapping. impl« /name> 
< value» org.apache.hadocp.net..ScriptBasedVarping /value> 
< description» The default implementation of the INSToSwitdMapping. It 
invokes a script specified in net.topology.script.file.name to resolve 
node names. If the value for net.topology.script.file.name is not set, the 
default value of DEFAULT RACK is returned for all node names. 
< /description» 


< name» net..topology.script.file.name« /name» 
< value» /opt/hadogp- 2.6.0/rack.lsp« /value» 
< property» 


«property» 
< name» net..tcpology.script.number.args« /name» 
«value» 10K /value> 
< description» The max rurber of args that the script configured with 
IP address. 


2. 部 署 脚本 到 NameNode 


在 core-site. xml 中 ,已 经 配置 名 为 rack. lsp 的 脚本 ,其 存储 路 径 为 /opt/hadoop-2. 6. 0/ 。 
下 面 就 需要 创建 该 脚本 ,让 Hadoop 了 解 DataNode 的 拓扑 结构 , 即 每 个 DataNode 节点 
所 在 的 Data Center 和 Rack ID, rack. lsp 的 脚本 内 容 如 下 。 
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# 通 过 DataNpde 的 耳 地 址 设置 机 架 ID(Rack ID) 

# 假 定 为 10.x.y.z 网 络 ， 

#x HET EG HD (Data Center) 的 划分 

# 如 10.1.y.z fll 10.2.y.z 表 示 不 同 Data Center 

+ 

#Y 用 于 机 架 DHIRI 

# 如 10.1.1.z 和 10.1.2.z 表 示 同 一 Data Center 中 的 不 同 Rack ID 


ipadir-$1 

segrents- 'echo Š ipaddr | cut -£2,3-d '.' — - output delimiter- /' 

echo /$ (segrents) 

3. 重启 NameNode 

如 果 配 置 成 功 ,重启 NameNode 后 ,可 在 NameNode 启动 日 志 中 输出 如 下 内 容 。 


2015- 01- 28 03:40:55, 715 INFO org.apache.hadoop.hdfs.StateChange: SIATE* Network topology has 1 racks 
and 3 datanodes 


也 可 以 通过 如 下 命令 ,查看 对 应 的 Data Center 和 Rack ID 的 信息 。 
[hadoop masterl hadogp- 2.6.0]$ hdfs dfsadmin - printTopology 
运行 结果 如 图 4. 18 所 示 。 

[hadoopēmasteri hadoop-2.6.0]$ hdfs dfsadmin -printTopology 


Rack: /168/85 
192.168.85.101:50010 (Slavel.Hadoop) 


192.168.85.1 50010 (Slave2.Hadoop) 
192.168.85.1 50010 (Slave3.Hadoop) 


图 4.18 查看 机 架 信 息 


从 图 4. 18 可 以 看 出 ,本 实例 的 三 个 DataNode 的 IP 都 在 同一 网 段 。 所 以 通过 HDFS 
的 机 架 的 结果 为 : 一 个 Data Center(168) ,该 机 架 中 有 一 个 Rack, Ë: Rack ID 为 85。 读 者 
可 根据 项 目 实际 情况 ,重新 制定 副本 策略 ,并 对 Data Center 和 Rack 进行 重新 规划 (需要 
重新 定义 rack. lsp 脚本 ) 。 


472 心跳 检测 


HDFS 将 每 个 文件 存储 成 一 系列 的 数据 块 ,所 有 的 数据 块 都 是 同样 大 小 (最 后 一 个 数 
据 块 除外 ) ,并 通过 复制 数据 块 来 解决 HDFS 的 容错 。 其 中 ,每 个 文件 的 数据 块 大 小 和 副 
本 数 都 是 可 以 配置 的 (在 hdfs-site. xml 中 进行 配置 )。 在 Hadoop 生态 系统 中 ,所 有 的 
DataNode 都 需要 向 集群 中 所 有 的 NameNode 注册 自己 ,DataNode 会 每 隔 一 段 时 间 向 所 
有 的 NameNode 发 送 心跳 和 处 理 来 自 NameNode 的 命令 ;NameNode 负责 所 有 数据 块 的 
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复制 , 它 周 期 性 地 从 集群 中 的 每 个 DataNode 节点 接收 心跳 信号 (用 于 检测 DataNode 是 
否 正常 ) 和 块 状态 报告 (包含 该 DataNode 上 所 有 数据 块 的 列表 )。 如 果 NameNode 接收 
到 心跳 信号 意味 着 该 DataNode 节点 工作 正常 ; 如果 DataNode 不 能 发 送 心 跳 信 息 ， 
NameNode 会 标记 最 近 没 有 心跳 的 DataNode 为 宕 机 状态 ,并 且 不 给 该 DataNode 发 送 任 
何 1/O 请 求 。DataNode 的 宕 机 会 造成 一 些 数 据 块 的 副本 数 下 降 并 低 于 指定 值 ， 
NameNode 会 不 断 检测 这 些 需 要 复制 的 数据 块 , 并 在 需要 的 时 候 重新 复制 。 

TE. 引发 数据 块 重新 复制 的 原因 很 多 ,如 DataNode 不 可 用 、 数 据 副 本 损坏 、 
DataNode 上 的 磁盘 错误 或 者 复制 因子 增 大 等 。 

本 实例 以 Hadoop 2.0 生态 系统 为 例 (Hadoop 2. 6. 0 stable 版 本 ) ,来 说 明 DataNode 
是 如 何 主动 向 NameNode 发 送 心跳 ,以 及 NameNode 是 如 何 处 理 来 自 DataNode 的 心跳 
(请 查看 本 书 配 套 资料 中 Demo/HeartBeat 文件 夹 中 的 相关 内 容 )。 


1. 启动 DataNode 节点 


启动 DataNode 节点 是 由 org. apache. hadoop. hdfs. server. datanode. DataNode 类 来 
实现 的 ,其 中 包括 两 个 过 程 : 创建 DataNode 对 象 和 启动 DataNode 节点 。 首 先 ， 
DataNode. main() 方 法 会 调用 DataNode. secureMain ) 方 法 ,并 在 secureMain 方法 中 调 
用 DataNode. createDataNode() 方 法 ,createDataNode() 方 法 又 调用 了 DataNode 类 中 的 
instantiateDataNode() 方 法 和 runDatanodeDaemon() 方 法 。 其 中 ,instantiateDataNode() 
方法 用 于 初始 化 DataNode 的 大 部 分 成 员 变 量 , 即 创 建 DataNode 对 象 ;runDatanodeDaemon() 
方法 用 于 向 NameNode 节点 注册 和 启动 DataNode 节点 的 线程 , 即 启 动 DataNode 线程 
(具体 实现 细节 请 查看 DataNode 类 中 的 相关 方法 )。 


2. 向 NameNode 发 送 心跳 及 响应 


启动 DataNode 线程 后 ,就 开始 执行 DataNode. startDataNode() 方 法 ,该 方法 启动 了 
DataNode 流 式 数据 交换 的 服务 和 在 各 个 数据 节点 间 进 行 RPC 通信 的 服务 ,并 经 过 层 层 调 
用 ,启动 了 真正 与 NameNode 进行 通信 的 org. apache. hadoop. hfds. server. datanode. 
BPServiceActor 服务 。BPServiceActor 类 负责 与 NameNode 的 RPC 对 话 。BPServiceActor. 
run() 方 法 内 部 循环 执行 BPServiceActor. connect ToNNAndHandshake C) 和 BPServiceActor. 
offerService() 方 法 ,来 向 NameNode 周期 性 地 发 送 心跳 和 接收 来 自 NameNode 的 响应 
(Response) 。 其 中 ,connectIbNNAndHandshake 〇 方法 的 代码 内 容 如 下 。 


private void oonnectTaNNAncHandsbake () throws IOException { 
// 连 接 到 NEmaNode 并 获得 NameNode 代 理 对 象 
TxNamenode- dn.connectTaNN (nnAddr) ; 
// 第 一 阶段 获取 Namespacernfo 
NamespaceInfo nsInfo- retrieveNamespaceInfo()7 
// 校 验 NanespaceTnfo Jë 8 #ll HA rh ff] £ fb Namevode f$ B, — Sit 
// 并 建立 blockPoolManager 和 BEOfferservice 的 对 应 关系 
Epos.verifyAndSetNamespaceInfo (nsInfo) ; 


BPServiceActor. offerService() 方 法 的 代码 内 容 如 下 。 
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} /hhile (should&n()) 
} //otterService 


3. NameNode 处 理 心跳 


NameNode 收 到 DataNode 心跳 包 后 ,除了 更 新 该 DataNode 信息 之 外 ,还 要 给 
DateNode 发 送 一 些 指令 ,如 更 新 租约 (lease recovery) ,复制 副本 (block replication)、 删 除 
数据 块 (block invalidation) .更 新 均衡 器 带宽 (update balancer bandwith) 等 命令 。 这 些 功 
能 都 是 由 org. apache. hadoop. hdfs. server. blockmanagement. DatanodeManager 类 中 的 
方法 来 实现 的 。 其 中 , DatanodeManager. handleHeartbeat ( ) 方法 用 来 处 理 来 自 
DataNode 的 心跳 包 , 其 代码 内 容 如 下 。 


xx NameNode 处 理 来 自 DataNode 的 心跳 */ 
public DatancdeCommand[] handleHeartbeat (DatanodeRegistration nodeReg, 
StorageReport[] reports, final String blockPoolId, 
long cacheCapecity, long cacheUsed, int xoeiverCount, 
int maxTransfers, int failedvolumes 


// 检 查 当前 DataNode 状 态 , 如 果 宕 机 ,表明 该 节点 不 允许 连接 到 NameNode 节 点 
if(nodeinfo !-null && nodeinfo.isDisallowed())( 
setDatanodeDead (nodeinfo) ; 
throw new DisallowedDatanodeException (nodeinfo) ; 
) 
if(nodeinfo--null || !nodeinfo.isAlive)( 
return new DatancdeCommand[] (Regi sterCammand . REGISTER) ; 
) 
// 更 新 DataNode 节 点 的 数据 
heartbeatManager.updateHeartbeat (nodeinfo, reports, 
cacheCapacity, cacheUsed, 
xoeiverCount, failedvolumes); 


C» 深入 浅 出 大 数据 
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HDFS HA(High Availability) 3 HDFS 的 高 可 用 性 ,是 HDFS 系统 对 外 正常 提供 服 
务 时 间 的 百分比 。NameNode 的 可 用 性 是 影响 HDFS 高 可 用 性 的 重要 因素 , 它 负责 整个 
HDFS 文件 系统 的 控制 与 管理 ,如 果 NameNode 发 生 故 障 ,将 导致 HDFS 无 法 正常 对 外 
提供 服务 。 因 此 , HDFS 的 HA 主要 由 NameNode 的 高 可 用 性 决定 的 , 即 提高 
NameNode 可 靠 性 ,减少 NameNode 故障 恢复 时 间 。 在 Hadoop 1. 0 生态 系统 中 , HDFS 
存在 单 点 故障 , 即 每 个 集群 只 有 一 个 NameNode, 如 果 NameNode 宕 机 ,将 导致 整个 集群 
无 法 使 用 。 在 Hadoop 2. 0 生态 系统 中 ,解决 了 NameNode 单 点 故障 问题 ,一 旦 主 
NameNode 出 现 故 障 , 可 以 迅速 切换 至 备用 NameNode, 从 而 实现 不 间断 对 外 提供 服务 。 

$.: 很 多 读者 把 高 可 用 性 与 高 可 靠 性 混 消 ,高 可 靠 性 是 对 系统 自身 而 言 , 是 系统 可 靠 
程度 的 一 个 指标 ;高 可 用 性 是 从 系统 对 外 的 服务 角度 而 言 , 是 系统 对 外 正常 服务 能 力 的 度 
量 ,主要 强调 系统 中 止 服务 后 迅速 恢复 的 能 力 。 如 果 一 个 可 靠 性 很 高 的 系统 ,中 止 服务 
后 ,恢复 时 间 很 长 , 则 该 系统 的 可 用 性 不 高 ;如 果 一 个 可 靠 性 不 高 的 系统 ,在 服务 中 止 后 ， 
可 迅速 恢复 , 则 该 系统 的 可 用 性 高 。 


1. HDFS HA 方案 及 特点 


为 了 提高 HDFS 的 HA 可 从 两 方面 考虑 , 即 提高 NameNode 的 可 靠 性 和 减少 
NameNode 故障 恢复 时 间 。 在 NameNode 的 可 靠 性 方面 ,可 对 NameNode 进行 备份 ;在 
NameNode 故障 恢复 方面 ,可 对 NameNode 自身 的 启动 过 程 进行 优化 来 减少 启动 时 间 ， 
或 者 提供 一 个 NameNode 的 热 备份 节点 , 当主 NameNode 节点 故障 时 ,切换 为 备 
NameNode 节点 , 主 备 切换 时 间 为 NameNode 故障 恢复 时 间 。 目 前 ,各 大 公司 和 Hadoop 
社区 提出 了 多 种 改进 HDFS HA 的 方案 ,常用 的 方案 主要 有 以 下 几 种 。 

1) NameNode 多 目录 存储 

该 方案 利用 Hadoop 自身 的 Failover 措施 来 实现 对 元 数据 的 备份 , 即 通过 配置 文件 
hfds-site. xml 设置 配置 项 dfs. name. dir( Hadoop 1. 0 生态 系统 ) 或 dfs. namenode. name. 
dir(Hadoop 2.0 生态 系统 ) ,将 NameNode 维护 的 元 数据 保存 到 多 个 目录 ,并 且 备 份 一 份 
到 远程 的 NFS(Network File System) 目录 。 当 NameNode 发 生 故障 时 ,可 通过 另 一 台 
NameNode 读 取 NFS 目录 中 的 元 数据 进行 恢复 工作 。 该 方案 解决 了 元 数据 保存 的 可 靠 
性 问题 ,是 Hadoop 自 带 的 机 制 , 只 需要 通过 简单 的 配置 即 可 实现 。 该 方案 的 不 足 之 处 在 
FEA NFS 增加 了 系统 开销 ,而 且 NameNode 故障 恢复 时 间 与 文件 系统 规模 成 正比 , 恢 
复 过 程 时 间 较 长 ,只 能 算是 一 种 备份 方案 ,并 不 是 真正 意义 上 的 HA 方案 。 

2) SecondaryNameNode 

该 方案 启动 一 个 SecondaryNameNode 节点 ,该 节点 定期 从 NameNode 节点 上 下 载 
元 数据 信息 (fsimage) 和 日 志文 件 (edits) ,并 进行 合并 更 新 ,生成 新 的 fsimage( 该 fsimage 
是 SecondaryNameNode 下 载 时 刻 的 元 数据 的 Checkpoint) ,从 而 实现 对 NameNode 的 备 
份 。 当 NameNode 故障 时 ,可 以 通过 SecondaryNameNode 进行 恢复 。 该 方案 解决 了 元 
数据 在 Checkpoint 阶段 元 数据 的 可 靠 性 问题 ,是 Hadoop 自 带 机 制 , 只 需要 简单 配置 即 
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可 实现 。 该 方案 的 不 足 之 处 在 于 Secondary NameNode 保存 的 只 是 Checkpoint 时 刻 的 元 
数据 ,通过 Checkpoint 恢复 的 元 数据 并 不 是 HDFS 的 最 新 数据 ,存在 一 致 性 问题 。 而 且 
NameNode 故障 恢复 时 间 与 文件 系统 规模 成 正比 ,恢复 过 程 时 间 较 长 ,只 能 算是 一 种 备份 
方案 ,并 不 是 真正 意义 上 的 HA 方案 。 

3) CheckpointNode 

该 方案 与 SecondaryNameNode 的 原理 基本 相同 ,利用 了 HDFS 的 Checkpoint 机 制 
进行 备份 ,通过 一 个 CheckpointNode 节点 定期 从 PrimaryNameNode 节点 下 载 元 数据 信 
息 进 行 合 并 (fsimage 和 edits) ,形成 最 新 的 Checkpoint, 并 上 传 到 NameNode 进行 更 新 。 
该 方案 的 不 足 之 处 在 于 Checkpoint 备份 没有 与 NameNode 实时 同步 ,恢复 后 的 元 数据 有 
可 能 不 是 NameNode 发 生 故 障 时 最 新 的 元 数据 信息 ,有 可 能 造成 数据 不 一 致 问题 ,而 且 
备份 节点 切换 时 间 比 较 长 。 因 此 ,该 方案 也 只 能 算是 一 种 备份 方案 ,并 不 是 真正 意义 上 的 
HA 方案 。 

4) Backup Node 

该 方案 利用 新 版 本 Hadoop 自身 的 Failover 措施 ,配置 一 个 Backup Node 节点 ,该 节 
点 在 内 存 和 磁盘 中 保存 了 NameNode 最 新 的 元 数据 。 当 NameNode 发 生 故 障 时 ,可 读 取 
Backup Node 节点 中 最 新 的 元 数据 信息 进行 恢复 。 该 方案 解决 了 元 数据 的 数据 一 致 性 问 
题 ,是 Hadoop 自 带 机 制 ,只 需要 简单 配置 即 可 实现 。 该 方案 的 不 足 之 处 在 于 当 
NameNode 发 生 故 障 时 ,只 能 通过 重启 NameNode 的 方式 来 恢复 服务 ,仍然 需要 一 定 的 
切换 时 间 。 

5) Facebook 的 AvatarNode 

Facebook 的 AvatarNode 存在 两 个 NameNode 节点 ,分别 是 Active Node 和 Standby 
Node。 其 中 ,Active Node 用 于 对 外 提供 服务 ,Standby Node 处 于 安全 模式 ,在 内 存 中 保 
存 Active Node 的 最 新 元 数据 信息 。Active Node 和 Standby Node 通过 共享 的 NFS 进 
行 交 互 。 当 Active Node 故障 时 ,管理 员 可 通过 一 条 命令 将 Standby Node 转换 为 Active 
Node, 大 大 减少 了 NameNode 的 故障 恢复 时 间 ,而 且 保证 了 元 数据 信息 的 一 致 性 。 该 方 
案 提供 了 一 种 热 备份 ,使 得 切换 时 间 大 大 缩短 ,是 一 种 真正 的 HA 方案 。 该 方案 的 不 足 
之 处 在 于 Standby Node 与 Active Node 之 间 并 不 是 自动 切换 , 当 NameNode 故障 时 , 需 
要 管理 员 确 认 后 ,由 管理 员 进 行 手动 切换 。 

6) 社区 开发 的 HDFS HA 

社区 开发 的 HDFS HA 方案 与 Facebook 的 AvatarNode 原理 基本 相同 ,区 别 在 于 对 
Active Node 和 Standby Node 的 共享 日 志 的 处 理 不 同 。 早 期 的 社区 HFDS HA 版 本 是 
将 Active Node 和 Standby Node 共享 NFS ,该 方案 需要 专用 存储 设备 ,在 使 用 上 有 一 定 
限制 。 随 后 ,采用 了 基于 BookKeeper 的 日 志 存 储 方案 , 即 通过 ZooKeeper 的 
BookKeeper 实现 日 志 的 高 可 靠 共 享 存 储 , 该 方案 对 ZooKeeper 依赖 较 大 ,配置 比较 复杂 。 
目前 ,最 新 Hadoop 版 本 采用 了 基于 QJM(Qurom Journal Manager) 的 共享 日 志方 案 , 即 
通过 2N 十 1 个 Journal Node 节点 存储 日 志 ,该 方案 独立 性 好 ,配置 比较 简单 ,是 社区 主推 
的 方案 。 

在 实际 应 用 中 ,往往 采用 两 种 以 上 的 组 合 方式 来 保证 HDFS 的 HA, 如 NameNode 
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多 目录 存储 与 SecondaryNameNode( 该 方案 适用 于 目前 Hadoop 所 有 版 本 )、NameNode 
多 目录 存储 与 Backup Node( 该 方案 适用 于 Hadoop 0. 21. 0 版 本 以 上 ) NameNode 多 目 
录 存 储 与 AvatarNode( 该 方案 适用 于 Hadoop 的 特定 版 本 )。 表 4. 5 给 出 了 这 几 种 常用 
HDFS 的 HA 方案 的 比较 。 


表 4.5 常用 HDFS 的 HA 方案 的 比较 


方 案 恢复 时 间 元 数据 一 致 性 使 用 复杂 度 
NameNode 多 目录 存储 长 一 致 低 
SecondaryNameNode 长 不 一 定 中 
CheckpointNode 长 不 一 定 中 
BackupNode 中 一 致 中 
Facebook AvatarNode 短 一 致 高 
社区 HDFS HA 短 =x 高 


2. 基于 QJM 的 HDFS HA 实现 机 制 


在 Hadoop 2. 0 生态 系统 中 , Hadoop 开源 社区 引入 了 QJM (Quorum Journal 
Manager) 和 NFS 用 于 HDFS 的 HA 机 制 的 实现 ,其 实现 原理 及 架构 与 Facebook 的 
AvatarNode 非常 相似 , 都 包括 两 个 NameNode ( Active NameNode 和 Standby 
NameNode) ,一 个 共享 存储 ,若干 个 DataNode 和 Client。 其 中 , Active NameNode 是 对 
外 提供 服务 的 NameNode; Standby NameNode 通过 共享 存储 与 Active NameNode 进行 
元 数据 同步 的 NameNode。 当 Active NameNode 失效 时 ,可 将 Standby NameNode 切换 
为 Active 状态 ,接替 失效 的 NameNode 对 外 服务 。 它 们 的 不 同 之 处 在 于 日 志 的 共享 方案 
不 同 。 基 于 QJM 的 日 志 共 享 的 基本 原理 (Paxos 算法 ) 是 用 2N 十 1 台 Journal Node 存储 
日 志 , 每 次 写 数据 操作 有 大 多 数 (W 宇 N 十 1) 返 回 成 功 时 ,就 认为 该 次 写 入 日 志 成 功 , 实 现 
机 制 如 图 4. 19 所 示 。 

在 图 4.19 中 ,DN 表示 DataNode; NN 表示 NameNode;JN 表示 Journal Node; ZK 
表示 ZooKeeper, Active NameNode 用 于 接收 来 自 Client 的 RPC 请 求 并 处 理 , 并 写 自 己 
的 editlog 和 共享 存储 上 的 editlog ,接收 DataNode 的 块 报告 (Block Reports)、 更 新 块 位 
置 (Block Location Updates) 和 心跳 (Heartbeat) 。Standby NameNode 同样 用 于 接收 来 
自 DataNode 的 相关 信息 ,同时 会 从 共享 存储 的 editlog 上 读 取 并 执行 这 些 log 操作 ,使 得 
自己 的 NameNode 中 的 元 数据 信息 和 Active NameNode 中 的 元 数据 信息 是 同步 的 。 
Journal Node 用 于 Active NameNode 和 Standby NameNode 之 间 的 通信 ,而 且 需 要 保证 
一 个 集群 中 至 少 运行 三 个 Journal Node 守护 进程 ,从 而 使 得 系统 有 一 定 的 容错 能 力 。 如 
果 集 群 中 要 设置 N 个 Journal Node 节点 (最 好 设置 成 奇数 个 Journal Node) ,系统 最 多 能 
容忍 CN 一 1)/2 个 Journal Node 节点 崩 演 。 在 手动 切换 的 基础 上 ,社区 又 开发 了 基于 
ZooKeeper 的 ZKFC(ZooKeeper Failover Controller) 自动 切换 解决 方案 ,每 个 Active 
Node 和 Standby Node 各 有 一 个 ZKFC 进程 监控 NameNode 的 健康 状况 , 当 Active 
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4.19 基于 QJM 的 HDFS HA 实现 机 制 
(图 片 来 源 : HDFS-1623 设计 文档 ) 


Node 出 现 问题 时 ,自动 将 Standby Node 切换 为 Active Node。 
3. 配置 基于 QJM 的 HDFS 的 HA 


在 Hadoop 2. 0 生态 系统 中 ,Hadoop 社区 提供 了 两 种 HDFS HA 的 实现 方式 ,分 别 
是 基于 QJM 的 HDFS HA 和 基于 NFS 的 HDFS HA。 本 实例 将 以 基于 QJM 的 HDFS 
HA 的 配置 为 例 (Hadoop 2. 6. 0 stable 版 本 ) ,介绍 如 何 实现 HDFS HA( 请 查看 本 书 配套 
资料 中 Demo/HDFS HA 文件 夹 中 的 相关 内 容 )。 

1) 确定 集群 结构 

HDFS HA 的 配置 向 后 兼容 ,允许 已 存在 的 单 NameNode 配置 在 没有 任何 改动 的 情 
况 下 工作 ,新 加 入 的 NameNode 节点 和 集群 中 所 有 节点 拥有 着 相同 的 配置 ,不 必 为 不 同 
的 机 器 设置 不 同 的 配置 文件 。 因 此 ,在 表 3.7 集群 规划 的 基础 上 只 需要 增加 一 个 
NameNode 节点 即 可 。 集 群 中 节点 角色 规划 如 表 4.6 所 示 。 


表 4.6 集群 节点 角色 分 配 


机 器 名 称 角 色 IP 地 址 硬件 参数 操作 系统 
x mp 1GB 
Masterl. Active NameN 
v ENGL ode  |192.168,85.100 | mans% 1 CentOS 7 
asik JournalNode me(scsp 20GB 
"pts 1GB 
N 
| 192. 168. 85. 101 | 日 处 理 器 1 CentOS 7 
JournalNode ZASR(SCSD 20GB 
mp 1GB 
Slave. Hadoop | DataNode 192.168.85.102 | 日 处 理 器 1 CentOS 7 
ZAWER(SCSI 20GB 
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续 表 
机 器 名 称 A € IP 地 址 硬件 参数 操作 系统 
"pus 1GB 
Slave3. Hadoop DataNode 192. 168. 85. 103 | 局 处 理 器 1 CentOS 7 
虽 硬 盘 (SCSD 20GB 
mp 1GB 
Master, Hadoop | Standby NameNode | 192. 168. 85. 99 | mama 1 CentOS 7 
JournalNode 局 硬盘 (SCSD 20GB 
在 一 个 HA 集群 中 备份 的 NameNode 也 要 坚持 Namespace 的 状态 ,那么 就 没有 必要 
去 运行 一 个 SecondaryNameNode CheckpointNode 或 者 BackupNode 在 集群 当中 。 对 于 
NameNode 和 SecondaryNameNode 相互 独立 的 两 个 节点 ,为 了 方便 非 HA 的 集群 可 以 实 


现 HA, 可 以 把 以 前 的 SecondaryNameNode 节点 作为 Standby NameNode, 并 且 实 现 硬件 
的 重用 。 在 之 前 表 3. 6 的 集群 规划 中 ,将 NameNode 和 SecondaryNameNode 两 个 角色 
都 放 在 Masterl. Hadoop 节点 上 。 因 此 ,本 实例 将 增加 一 个 Master2. Hadoop 节点 作为 
Standby NameNode 角色 节点 。 在 HA 集群 中 ,JournalNode 用 于 Active NameNode 和 
Standby NameNode 之 间 的 通信 ,并 且 至 少 需要 三 个 以 上 节点 ,所 以 将 Masterl. Hadoop, 
Master2. Hadoop 和 Slavel. Hadoop 节点 作为 JournalNode 角色 节点 。 

2) 配置 hdfs-site. xml 文件 

要 实现 HDFS 的 HA, 必 须 添加 相应 的 配置 项 到 配置 文件 hdfs-site. xml 中 ,并 将 配 
置 文件 同步 到 所 有 的 节点 上 (可 以 使 用 rsync 将 配置 文件 同步 到 节点 上 ) ,具体 的 配置 内 
容 如 下 。 


m z 
< 上 -"dfs.nameservices" 定 义 nameservices 的 名 字 ,这 个 名 字 可 以 任意 定义 ,这 里 定义 成 
Ecinsteni e 


< !— - "dfs.ha.namenodes. [nameservice ID]" 慰 识 每 个 NemeNode, 每 个 NameNode 的 标识 必须 唯一 ,并且 最 
多 有 两 个 NameNode。 这 里 将 两 个 NameNode 分 别 取 名 为 nnlnn2。- -> 
«property» 
< name» dfs.ha.namenodes.clusterl« /name> 
«value» nnl, nn« /value> 
< property» 
< !- - "dfs. namenode. rpc- address. [nameservice ID]. [name node ID)" 定义 每 个 NameNode 的 IP mk 
Hostname 以 及 端口 号 ,这 里 定义 ml 和 mn2 的 REC 通 信 地 址 --> 
«property» 
< name» dfs.namenode. rpc- address.clusterl.nnl« /name> 
< value» Master1.Hadogp: 9000« /value> 
< /property> 
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«property» 
< name» dfs.namenode. rpc- address.cluster] .nn2« /name> 
< value» Master2.Hadoop: 9000€ /value> 
< /prcperty> 
< 1- - "dfs.namenode.http- address. [nameservice ID].[name node ID]" 定 义 HPTP 服 务 的 端口 号 ,这 里 定 
XC mi 和 mn2 的 http 通 信 地 址 --> 
«property» 
< name» dfs.namenode.http- address.clusterl.nn1« /name> 
< value» Master] .Hadoop:50070< /value» 


< name» dfs.namenode .http- address.clusterl .nn2< /name> 
< value» Master?.Hadogp:50070« /value> 
< /property> 
< 上 - "dfs.namenode.shared.edits.dir" 共 享 存储 目录 的 位 置 。 这 是 配置 备份 节点 需要 随时 保持 同 
步 活 动 节点 所 做 更 改 的 远程 共享 目录 ,只 能 配置 一 个 目录 ,这 个 目录 挂 载 到 两 个 NmeNode 上 都 必 
须 是 可 读 写 的 , 且 必须 是 绝对 路 径 。- -> 
«property» 
< name» dfs.namenode.. shared.edits.dir« /name> 
< value» qjournal ://Master1. Hadoop: 8485; Master?. Hadoop: 8485; Slavel . Hadoop: 8485/ 
clusterl< /value> 
< /prcperty> 
< !— - "dfs.client.failover.proxy.provider. [nameservice ID]" HOFS Client 用 来 和 活动 的 NameNode 进行 
联系 的 uava 类 。 配 置 的 Java 类 是 用 来 给 HES Client 判断 哪个 NameNode 节 点 是 活动 的 ,当前 是 哪 
个 NameNode 处 理 Client 端的 请 求 。 目 前 Hadoop 唯一 的 实现 类 是 ConfiguredFailoverProxyProvider, 
--» 
«property» 
< nane» dfs.client.failover.proxy.provider.gagcluster« /name> 


< 上 二-"dfs.ha.fencingmethods" 用 于 停止 活动 NameNode 节点 的 故障 转移 期 间 的 脚本 或 Java 类 的 列 
表 。 在 任何 时 候 只 有 一 个 NameNoce 处 于 活动 状态 ,对 于 色 集 群 的 操作 是 至 关 重 要 的 。Hadoop 提 供 
了 shell 和 sshfence 两 种 方法 ,要 实现 自己 的 方法 ,请 看 org.apache.hadoop.ha.NodeFencer 2ÉÉ, -- 


< /prcperty> 
< 1— "dfs.ha.fencing.ssh.private- key- files" 用 来 设置 隔离 机 制 时 需要 ssh 免 密码 登录 --> 
«property» 
< name» dfs.ha. fencing.ssh.private- key- files< /name» 


3) 启动 JournalNode 
配置 完 hdfs-site. xml 之 后 ,需要 启动 JournalNode 角色 , 即 启动 Masterl. Hadoop, 
Master2. Hadoop 和 Slavel. Hadoop 上 的 JournalNode。 在 Masterl. Hadoop 的 终端 的 


具体 命名 如 下 。 


4) NameNode 格式 化 
启动 JournalNode 之 后 ,首先 需要 对 Masterl. Hadoop 的 NameNode 进行 格式 化 ,并 
在 格式 化 完成 后 ,重启 动 Masterl. Hadoop 的 NameNode, 即 为 Active NameNode, 具 体 


命令 如 下 。 


在 返回 的 结果 中 ,如 果 显 示 “Exiting with status 0” 表 示 格 式 化 成 功 ,否则 表示 格式 化 
失败 (请 查看 NameNode 的 日 志文 件 logs/hadoop-hadoop-namenode-masterl. hadoop. 
log) 。 

5) 元 数据 同步 

在 Master2. Hadoop 节点 上 对 NameNode 进行 元 数据 同步 ,并 启动 NameNode, 即 
Standby NameNode, 具 体 命 令 如 下 。 


6) 查看 或 切换 HA 节点 

启动 Slavel. Hadoop. Slave2. Hadoop 和 Slave3. Hadoop 上 的 DataNode, 就 可 以 通 
过 hdfs haadmin 命令 来 查看 HA 的 状态 ,或 者 Active NameNode 和 Secondary 
NameNode 之 间 切 换 , 具 体 命令 如 下 。 
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$ hdfs haadmin - failover nnl nn2 
Failover fram nnl to nn2 successful 


// 查 看 Masterl.Hadoop 节 点 上 NameNode TR ds 
$ hdfs haacmin - getServicestate nnl 
standby 


// 查 看 aster2.Hadoop 节 点 上 NameNode TR 25 
$ hdfs haaduin - getServiceState nn2 
active 


通过 上 面 的 配置 与 测试 ,就 成 功 实现 了 基于 QJM 的 HDFS HA. 目前 ,本 实例 是 通 
过 手动 切换 Active NameNode 和 Standby NameNode 的 。 如 果 要 实现 Active NameNode 和 
Standby NameNode 之 间 自 动 切换 可 使 用 基于 ZooKeeper 的 ZKFCCZooKeeper Failover 
Controller) 自动 切换 解决 方案 (需要 安装 ZooKeeper ,配置 hdfs-site. xml 和 core-site. xml 
文件 ) 。 

注 : 基于 QJM 的 HDFS HA 方案 采用 了 Quorum Commit Protocol, 并 引入 两 个 角 
色 : QuorumJournalManager 和 JournalNode. QuourumJournalManager 通过 RPC 将 
edits 日 志 写 入 N(N 为 奇数 ) 个 JournalNode, 只 要 有 大 多 数 ( 大 于 N/2 个 )JournalNode 
成 功 写 入 则 任务 日 志 写 入 成 功 。 想 深入 了 解 该 实现 机 制 的 读者 ,请 查看 Hadoop 源码 目 
录 中 的 org. apache. hadoop. hdfs. qjournal. * 包 中 的 源码 。 


474 HDFS Federation 


在 Hadoop 1. 0 生态 系统 中 ,整个 HDFS 集群 中 只 有 一 个 命名 空间 (Namespace) ,并 
且 只 有 一 个 NameNode 来 负责 对 命名 空间 的 管理 ,存在 单 节 点 故障 。 在 Hadoop 2. 0 Æ 
态 系统 中 ,HDFS 引入 了 HDFS Federation. f f$ HDFS 支持 多 个 Namespace, Jf H. fù VF 
在 HDFS 中 同时 存在 多 个 NameNode。 


1. HDFS Federation 架构 


HDFS Federation 是 为 了 解决 HDFS 单 点 故障 而 提出 的 NameNode 的 水 平 扩展 方 
* ,该 方案 允许 HDFS 创建 多 个 Namespace 以 提高 集群 的 扩展 性 和 隔离 性 。HDFS 
Federation 架构 如 图 4. 20 所 示 。 

从 图 4. 20 可 以 看 出 ,HDFS Federation 架构 分 为 两 层 : Block Storage 和 Namespace。 
其 中 ,Block Storage 层 主 要 负责 数据 块 Block 的 存储 ;Namespace 层 主 要 负责 命名 空间 的 
管理 。HDFS Federation 使 用 了 多 个 独立 的 NameNode/Namespace 来 使 得 HDFS 的 命 
名 服务 能 够 水 平 扩展 ,NameNode 之 间 相 互 独立 且 不 需要 相互 协调 。 这 些 NameNode 共 
用 集群 中 DataNode 上 的 存储 资源 ,并 且 每 个 NameNode 的 Namespace 被 创建 时 都 会 定 
义 一 个 存储 池 BlockPoolID( 跨 集群 的 全 局 唯一 ) 。 每 个 NameNode 都 可 以 单独 对 外 提供 
服务 。DataNode 每 隔 一 段 时 间 会 按照 存储 池 ID 向 其 对 应 的 NameNode 发 送 心跳 信息 ， 
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图 4.20 HDFS Federation 架构 
(图 片 来 源 : HDFS-1052 设计 文档 ) 


同时 向 所 有 NameNode 发 送 块 状态 报告 ,并 处 理 来 自 NameNode 的 命令 。HDFS 
Federation 存在 多 个 Namespace, 划 分 和 管理 这 些 Namespace 采用 了 Client Side Mount 
Table, 即 将 各 个 Namespace 挂 载 到 全 局 mount-table 中 ,就 可 以 做 到 将 数据 全 局 共享 ; 同 
样 的 Namespace 挂 载 到 个 人 的 mount-table 中 ,这 就 成 为 应 用 程序 可 见 的 命名 空间 视图 。 

HDFS Federation 具有 良好 的 向 后 兼容 性 ,对 已 有 的 单 NameNode 的 部 署 配置 不 需 
要 任何 改变 就 可 以 继续 工作 ,并 且 提 供 了 统一 的 块 存储 管理 和 良好 的 扩展 性 ,保证 了 资源 
利用 率 。 但 是 HDFS Federation 并 没有 完全 解决 单 点 故障 问题 ,虽然 NameNode/ 
Namespace 存在 多 个 ,但 是 从 单个 NameNode/Namespace 来 看 ,仍然 存在 单 点 故障 ,而 且 
HDFS Federation 采用 了 Client Side Mount Table 进行 划分 和 管理 Namespace, TE f $ 
均衡 方面 需要 人 工 介 入 。 


2. HDFS Federation 配置 


由 于 Hadoop 1. 0 生态 系统 并 不 支持 HDFS Federation。 因 此 ,本 实例 以 在 Hadoop 
2.0 生态 系统 为 例 (Hadoop 2. 6. 0 stable 版 本 ) ,介绍 如 何 通过 配置 HDFS, 实 现 HDFS 
Federation。 在 实际 使 用 过 程 中 ,HDFS HA 和 HDFS Federation 是 一 起 配合 使 用 的 (如 
图 4.7 所 示 的 HDFS 架构 )。 为 了 方便 读者 理解 ,本 实例 单独 使 用 HDFS Federation 进 
行 单独 配置 介绍 (请 查看 本 书 配套 资料 中 Demo/Federation 文件 夹 中 的 相关 内 容 )。 

1) 确定 集群 架构 

假设 本 实例 没有 使 用 HA, 而 是 直接 使 用 Masterl. Hadoop 和 Master2. Hadoop 组 成 
了 Federation 集群 ,对 应 的 Namespace 的 逻辑 名 称 分 别 为 nsl 和 ns2 ,并 在 Client 端 进行 
了 挂 载 表 的 映射 Client Side Mount Table. 把 /share 映射 到 ns1.38 /user 映射 到 ns2。 本 


ep 


实例 的 Federation 集群 架构 如 图 4. 21 所 示 。 


Client Side 
Mount Table 
A 了 


[Slave Hadoop | Slave2.Hadoop | [Siave3.Hadoop | 
图 4. 21 Federation 集群 架构 


2) 配置 core-site. xml 

HDFS Federation 使 用 Client Side Mount Table 实现 了 为 各 个 Namespace 提供 一 个 
统一 的 视图 (viewfs) 。 该 viewfs 实际 上 提供 了 一 种 映射 关系 ,将 一 个 全 局 目录 映射 到 某 
个 具体 的 NameNode/Namespace 目录 上 ,在 core-site. xml 中 需要 修改 的 配置 如 下 。 


3) 配置 mountTable. xml 

在 core-site. xml 文件 中 ,引入 了 一 个 配置 文件 mountTable. xml。 该 文件 用 于 配置 
Client Mount Table, 即 将 虚拟 路 径 映射 到 某 个 Namespace 及 其 物理 子 目 录 。 本 实例 
将 /share 映射 到 nsl 的 /real_share,/user 映射 到 ns2 的 /real_user, 其 配置 内 容 如 下 。 


4) 配置 hdfs-site. xml 
hdfs-site. xml 中 需要 给 出 每 个 Namespace 的 具体 信息 ,需要 添加 的 配置 内 容 如 下 。 


最 后 ,在 NameNode 上 建立 好 Client 端 挂 载 表 映射 的 目标 物理 路 径 ,如 /real_share 
和 /real_user, 并 格式 化 NameNode 之 后 ,集群 中 就 有 两 个 NameNode: Masterl. Hadoop 
和 Master2. Hadoop。 其 中 , Masterl. Hadoop 的 Namespace 为 nsl ,管理 /share 目录 ; 
Master2. Hadoop 的 Namespace 为 ns2 ,管理 /user 目录 。 可 使 用 hdfs 命令 访问 HDFS 上 
的 文件 ,结果 如 下 所 示 。 
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通过 本 实例 ,并 结合 HDFS HA 实例 ,其 实 HA 和 Federation 配置 的 关键 就 在 于 
hdfs-site. xml 中 相应 配置 项 的 组 合 ,读者 可 自行 实践 HDFS HA 和 Federation。 如 果 还 
需要 更 深入 了 解 实现 细节 的 话 , 可 以 详细 阅读 设计 文档 或 代码 。 


4.8 HDFS 快照 机 制 


在 Hadoop 2. 0 生态 系统 中 (Hadoop 2. 1. 0 Beta 版 本 以 上 ),HDFS 提供 了 快照 
(SnapShot) 功 能 ,可 对 HDFS 目录 创建 快照 ,创建 之 后 不 管 后 续 目 录 发 生 什么 变化 ,都 可 
以 通过 SnapShot 恢复 到 某 一 时 刻 的 文件 和 目录 结构 。 


481 快照 原理 


一 个 快照 (SnapShot) 是 一 个 全 部 文件 系统 或 某 个 目录 在 某 一 时 刻 的 镜像 ,用 于 数据 
备份 . 回 滚 , 从 而 防止 因 用 户 的 误 操作 导致 集群 出 现 问题 。 在 HDFS 中 ,快照 功能 是 通过 
对 NameNode 节点 的 操作 来 实现 的 , 即 在 每 个 目标 节点 下 面 创建 一 个 SnapShot 节点 ,后 
续 任 何 子 节点 的 变化 都 会 同步 记录 到 该 SnapShot 节点 上 。 例 如 , 当 HDFS 启用 
SnapShot 功能 后 ,文件 目录 树 结构 如 图 4. 22 所 示 。 


d bbe 


L regular file (m snapshot file Q dir diff 


Q regular dir Oo snapshot dir Q snapshot 


图 4.22 HDFS 开启 SnapShot 后 的 文件 目录 结构 


图 4. 22 表示 启用 了 a 的 SnapShot 功能 。 其 中 ,. snapshot 是 一 个 虚拟 节点 ,保存 了 

所 有 SnapShot 列表 ;diff 保存 了 当前 节点 的 变化 ,一 个 SnapShot 对 应 一 个 diff。 当 创建 

一 个 SnapShot 时 ,实际 的 创建 动作 仅仅 是 在 目录 对 应 的 节点 上 添加 个 快照 标签 ,而 数据 
复制 的 动作 将 被 延迟 到 实际 修改 时 ,如 图 4. 23 所 示 。 
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图 4.23 在 可 快照 目录 a 上 创建 快照 s1 的 过 程 


从 图 4. 23 可 以 看 出 ,SnapShot 的 创建 是 瞬间 完成 的 , 除 节 点 遍历 耗 时 之 后 ,其 快照 
创建 操作 的 时 间 复 杂 度 为 0(1) ,而 且 在 a 目录 上 初始 创建 快照 时 并 不 占用 额外 内 存 , 只 
有 在 后 续 对 a 目录 中 的 内 容 进行 修改 时 , 才 会 占用 额外 的 NameNode 内 存 空 间 , 其 内 存 
占用 为 OCM) M 为 修改 的 数量 。 当 在 a 目录 上 进行 添加 、 删 除 文件 或 目录 时 ,如 果 是 直 
接 子 节点 ,都 会 将 节点 转换 为 SnapShot 版 本 ;如 果 是 对 子孙 节点 进行 操作 ,首先 将 子孙 节 
点 转变 为 SnapShot 版 本 ,然后 将 父 节 点 变 为 SnapShot 版 本 ,同时 将 子孙 节点 版 本 加 入 到 
直接 父 节 点 的 diff 列表 中 。 为 了 能 够 通过 同一 个 SnapShot 找到 当时 的 文件 ,需要 将 新 的 
diff 指向 到 老 的 SnapShot 版 本 上 。 如 图 4.24 所 示 为 在 快照 目录 a 上 添加 、 删 除 文件 的 
过 程 。 

从 图 4. 24 可 以 看 出 ,在 a 目录 中 直接 添加 g 节点 和 直接 删除 e 节点 ,只 需要 将 节点 
转换 为 SnapShot 版 本 ,其 diff 会 记录 添加 和 删除 节点 信息 ;在 a 目录 中 删除 子孙 节点 
时 , 先 将 子孙 节点 转换 为 SnapShot 版 本 (diff2) ,同时 把 diff2 添加 到 直接 父 节点 的 diff 
列表 中 。 当 需要 读 取 快照 文件 时 ,HDFS 通过 反 向 执行 所 记录 的 修改 操作 , 即 SnapShot 
数据 由 当前 数据 减 去 已 经 修改 的 部 分 : SnapShot Data— current data 一 modification ,然后 
进行 读 取 操作 。 基 于 这 种 方式 实现 的 快照 ,并 不 会 影响 正常 的 HDFS 操作 。 因 为 当前 
HDFS 文件 的 读 取 流程 并 没有 改变 ,而 额外 的 维护 操作 也 被 限制 在 快照 文件 中 。 
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SnapShot 使 用 一 种 可 选 的 Copy-On-Write 方式 创建 文件 的 “逻辑 ?副本 ,因此 ,快照 
创建 的 速度 很 快 ,资源 开销 也 较 小 ,适合 用 于 作为 常规 备份 手段 ,以 防止 由 于 误 删 除 引 起 


Cu 深入 浅 出 大 数据 


Modifications: 
N lme h 
| 2.addg H 
' 3. rm f from difI2 ! 


图 4.24 在 快照 目录 a 上 添加 、 删 除 文件 过 程 
的 数据 丢失 。SnapShot 在 下 面 的 场景 中 比较 适用 。 
1. 防止 用 户 误 操作 


可 以 通过 滚动 的 方式 周期 性 地 设置 一 个 只 读 快照 ,这 样 就 可 以 在 HDFS 上 有 若干 份 
只 读 快 照 。 即 使 用 户 意 外 操作 删除 或 修改 了 一 个 文件 ,也 可 以 使 用 包含 该 文件 的 最 新 只 
读 快 照 来 进行 恢复 。 


2. 测试 /试验 


当 用 户 想 在 某 数据 集 上 进行 测试 应 用 程序 ,但 又 担心 测试 应 用 程序 会 覆盖 或 损坏 原 
来 的 数据 集 时 ,可 以 为 用 户 设置 一 个 该 数据 集 的 快照 供应 用 测试 使 用 ,在 快照 上 的 数据 操 
作 不 会 影响 到 原 有 数据 集 。 


3. 常规 按时 备份 


当 用 户 需要 按 固定 时 间 间 隔 (例如 每 天 ) 的 方式 进行 数据 备份 时 ,可 通过 按照 定时 任 
务 创 建文 件 快照 ,实现 常规 的 按时 备份 数据 ,同时 也 提升 了 后 续 外 部 备份 时 的 数据 一 致 性 
(快照 操作 耗 时 要 远 低 于 外 部 备份 ) 。 
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基本 操作 
当 要 使 用 HDFS 的 快照 功能 时 ,首先 要 启动 快照 功能 ,其 命令 格式 为 : 
hafs dfsadmin - allowSnapshot « path» 


表示 可 对 某 一 个 路 径 ( 可 以 是 根 目录 /, 某 一 目录 或 者 文件 ) 开 启 快照 功能 。 例 如 ,对 


录 开 启 快 照 功能 的 命令 如 下 。 
$ hdfs dfsadmin - allowSnapshot / // 开 启 根 目录 "/" 快 照 功 能 
Allowing snapbot on / sucoeeded // 表 示 根 目录 快照 功能 开启 成 功 


开启 快照 功能 之 后 ,就 可 以 创建 一 个 SnapShot, 其 命令 格式 为 : 
hdfs dfs - createSnapshot < path» [< snapshotName> ] 


其 中 ,一 path 二 为 SnapShot 路 径 ; 一 snapshotName 二 为 快照 名 ,默认 快照 名 的 格式 


为 syyyyMMdd-HHmmss. SSS, 如 s20150515-084657. 639。 如 在 根 目录 创建 一 个 名 为 sl 


的 快 


照 ,其 命令 如 下 。 
$ hdfs dfs - createSnapshot / sl // 在 根 目录 下 创建 一 个 名 为 sl 的 快照 
Created snapshot. /.snapshot/s1 /表示 快照 创建 成 功 


为 了 方便 演示 快照 的 一 些 其 他 常用 命令 ,本 实例 在 创建 快照 s1 的 基础 上 创建 两 个 文 


fr: f1 和 f2, 并 新 建 快照 2 ,其 命令 如 下 。 

$ hdfs dfs - touchz /£(1,2) // 创 建 cif 也 文件 

$ hdfs dfs - createSnapshot / s2 /新 建 快照 s2 

Created snapshot /.snapshot/s2 /快照 s2 创 建成 功 

删除 文件 £2 ,并 重新 创建 一 个 快照 s3 ,查看 快照 s2 和 快照 s3 的 内 容 , 其 具体 命令 
如 下 < 


所 查看 快照 s2 的 内 容 

$hdfs dfs - 1s -R / 

-rw-r--r-- 3 hadoop supergroup 0 2015- 01- 27 01:37 /f1 
-rw-r--r-- 3 hadoop supergroup 0 2015- 01- 27 01:37 /f2 


drwxr-xr-x  — hadoop supergroup 0 2015- 01- 06 21:24 /input 
-rw-r--r-- 3hadoop supergrouo 195257604 2015- 01- 06 21:24 /input/hadoxp- 
2.6.0.tar.gz 

-rw-r--r--  3lhedxp spengrap 21 2015- 01- 05 01:47 /irput/wordaount- 
drwxr-xr-x  — hadoop supergroup 0 2015- 01- 05 01:51 /output. 


-mw r-r- 3 hadoop supergroup 0 2015- 01- 05 01:51 /output/ SUCCESS 


通过 上 述 命令 可 以 发 现 , 当 前 快照 s3 中 已 经 没有 人 2 文件 ,而 快照 s2 中 还 有 2 文件 
存在 。 由 此 可 见 , 快 照 只 是 创建 了 文件 (2 的 一 个 “逻辑 ?副本 ,并 没有 真正 删除 12 文件 。 

还 可 通过 hfds IsSnapshottableDir 和 hdfs dfs -renameSnapshot 命令 来 进行 查看 
snapshottable 目录 和 修改 快照 名 ,其 具体 命令 如 下 。 
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Found 3 items 

drwxr-xr-x  — hadoop supergroup 0 2015- 01- 27 01:39 /.snapshot/s2 
drwxr-xr-x  — hadoop supergroup 0 2015- 01- 27 01:47 /.snapshot/s3 
drwxr-xr-x  — hadoop supergroup 0 2015- 01- 27 01:31 /.snapshot/s init 


要 查看 snapshottable 目录 中 的 所 有 快照 ,也 可 以 通过 Web 方式 查看 ,其 端口 号 为 
dfs. namenode. http-address 的 端口 号 ,如 图 4. 25 所 示 。 


Hadoop ow 


Snapshot Summary 


Snapshottable directories: 1 


Path Snapshot Number Snapshot Quota Modification Time Permission Owner Group 


i $ 65536 2015 年 1 月 27 日 14:47:07 rwxr-xrx hadoop supergroup 


Snapshotted directories: 3 


Snapshot ID Snapshot Directory Modification Time 

s2 /.snapshot/s2 2015 年 1 月 27 日 14:39:33 
s3 .snapshot/s3 2015 年 1 月 27 日 14:47:07 
s, init !.snapshotis init 2015:F127H 14:31:29 
Hadoop. 2014. 


4.25 Snapshot Summary 


从 图 4.25 可 以 看 出 ,HDFS 的 快照 共有 一 个 Snapshottable 目录 ,并且 该 目录 最 多 可 
以 容纳 65 536 个 SnapShots 以 及 一 些 权 限 等 信息 ;该 目录 下 有 三 个 Snapshots ,分别 为 
s2、s3 和 s_init, 以 及 相应 的 修改 时 间 等 信息 。 

当 需 要 删除 快照 或 关闭 HDFS 快照 功能 时 ,可 以 使 用 以 下 命令 完成 相应 操作 , 


持 删 除 快照 s init, s2 fI s3 

$ hdfs dfs - deleteSnapshot / s init 
$ hdfs dfs - deleteSnapshot. / s2 

$ hdfs dfs - deleteSnapshot / s3 


## 关 闭 Snapshots 
$ hdfs dfsadmin - disallowSnapshot / 
Disallowing snaphot on / succeeded /表示 根 目录 快照 关闭 成 功 


ik. AX HDFS 快照 功能 的 具体 实现 代码 在 org. apache. hadoop. hdfs. server. 
namenode 包 中 INode, INodeDirectory, Snapshot 等 类 实现 ,有 兴趣 的 读者 可 进行 深入 
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4.9 HDFS 读 写 机 制 


HDFS 是 分 布 式 文件 系统 ,要 对 HDFS 上 的 文件 进行 访问 ,就 需要 通过 HDFS 所 提 
供 的 API aÈ Hadoop dfs/dfsadmin 命令 行 接口 实现 与 HDFS 的 交互 。 无 论 采 用 哪 种 方 
式 , 其 读 取 或 写 人 HDFS 数据 的 机 制 是 相同 的 ,下 面 将 分 别 对 HDFS 读 机 制 和 HDFS 的 
写 机 制 进行 介绍 。 


491 HDFS 读 机 制 


当 Client 端 需要 读 取 HDFS 中 的 数据 时 ,首先 要 基于 TCP/IP 与 NameNode 节点 建 
立 连接 ,并 通过 Client Protocol 发 起 读 取 文 件 的 请 求 。 然 后 ,NameNode 根据 用 户 请 求 返 
回 相应 的 块 信息 。 最 后 ,Client 端 再 向 对 应 块 所 在 的 DataNode 发 送 请 求 并 取 回 所 需要 的 
数据 块 , 具 体 的 HDFS 读 取 机 制 如 图 4. 26 所 示 。 


HDFS Client 


FSData 
InputStream 


Client Node 


图 4.26 HDFS 读 机 制 


从 图 4. 26 可 以 看 出 ,Client 端 首先 要 获取 DistributedFileSystem 的 一 个 实例 ,并 调用 该 
实例 的 open() 方 法 ,获得 该 文件 对 应 的 输入 流 DFSInputStream(FSDataInputStream 继承 自 
DFSInputStream) ,其 代码 实现 如 下 。 


public FSDataInputStream open (Path f, final int bufferSize) 
throws ICExcepticn ( 
statistics.incrementReadops (1) ; 
Path absF- fixRelativePart (f); 
retum new FileSystemLinkResolver« FSDataInputStreamp (){ 
@ Override 
public FSDataInputStream doCall (final Path p) 
throws IOException, UnresolvedLinkException ( 
final DESInputStream dfsis- 
dfs.apen (getPattiName (p), bufferSize, verifyChecksum) ; 
retum dfs.createWrappedInputStream (dfsis) ; 
} 
@ Override 
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public FSDataInputStream next (final FileSystem fs, final Path p) 
throws IOExoeption ( 
retum fs.open(p, bufferSize); 
) 
)-resolve (this, absF); 
) 


其 中 ,dfs 为 DistributedFileSystem 的 成 员 变 量 DFSClient, `4 open O ER JC BE W] 
后 ,创建 输入 流 DFSInputStream, fE DFSInputStream 的 构造 函数 中 ,openInfo 函数 被 
调用 ,该 函数 通过 RPC 远程 调用 NameNode 获得 该 文件 对 应 的 数据 块 相 关 信息 ,其 代码 
实现 如 下 。 


synchronized void cpenInfo ()throws IOException, UnresolvedLinkExosption ( 
lastBlockBeingwrittenLengthr fetchLocatedBlocksAndsetTastBlockLength () ; 
int retriesForlastBlockLength- dfsClient .getConf () . 
retryTimesForGetlastBlocklength; 
while (retriesForlastBlockLength > 0) ( 
if (lastBlockBeingwrittenlength- = - 1) ( 
DFSClient.IOG.warn ("Last block locations not available. " 
+ "Datanodes might not have reported blocks oampletely." 
+" Will retry for "+ retriesForlastBlocklength* " times"); 
waitfor (dfsClient.getConf () .retryIntervalForGetLastBlockLength) ; 
lastBlockBeingsrittenlength- fetchlocateBlockAndætIastBlocklength () ; 
) else { 
break; 
} 
retriesForLlastBlockLength- - ; 
} 
if(retriesForlastBlockLength- = 0) ( 
throw new IOException ("Could not abtain the last block locations."); 
) 
J 


Client 端 获 得 DFSInputStream 之 后 ,调用 read () 方 法 读 取 数据 块 。 输 入 流 
DFSInputStream 会 根据 排序 结果 ,选择 最 近 的 DataNode 建立 连接 并 读 取 数据 ,如 果 
Client 端 与 其 中 的 一 个 DataNode 位 于 同一 个 节点 , 则 直接 从 该 节点 读 取 数据 。 
DFSInputStream. read() 方 法 代码 实现 如 下 。 


Public int read (lang position, byte[] buffer, int offset, int length) 
throws IOException { 
synchronized (this) ( 
log oldPos- getPos () ; 
int nread-- 1; 


如 果 已 读 取 到 数据 块 末端 , 则 关闭 与 该 DataNode 的 连接 ,然后 重新 查找 下 一 个 数据 
块 ,直到 该 文件 的 所 有 数据 块 全 部 读 完 为 止 。 最 后 ,Client 端 调 用 close() 方 法 ,关闭 输入 
ği DFSInputStream, 完 成 对 HDFS 中 文件 的 读 操作 。 其 中 ,close() 方 法 的 代码 实现 
如 下 。 
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如 果 DFSInputStream 和 DataNode 的 通信 发 生 异 常 ,或 者 数据 校 验 出 错 ， 
DFSInputStream 就 会 重新 选择 DataNode 传输 数据 。 


492 HDFS 写 机 制 


当 Client 端 在 读 HDFS 的 数据 时 ,对 文件 的 操作 包括 open()、read()、close() 等 过 
程 , 当 Client 端 在 写 人 数据 到 HDFS 时 ,其 操作 主要 包括 create()、write() 、close() 等 过 
程 ,具体 的 HDFS 写 机 制 如 图 4. 27 所 示 。 


| 2: 创建 文件 元 数据 


Distributed 
FileSystem 


HDFS Client 


FSData 
InputStream 


Client Node 


图 4.27 HDFS 写 机 制 


从 图 4.27 可 以 看 出 ,Client 端 首先 要 获取 DistributedFileSystem 的 一 个 实例 ,并 调 
用 该 实例 的 create() 方 法 ,创建 文件 ,其 代码 实现 如 下 。 


public FSDataOutputStream create (Path f, FsPermission permission, 
Progressable progress)throws ICExcepticn { 
retum this.create (f, permission, 
overwrite ?EnumSet.of (CreateFlag.CREATE, CreateFlag.OVERBRTIE) 
: Enur&et..of (CreateFlag.CREATE) , bufferSize, replication, 
blockSize, progress, null); 
H 


DistributedFileSystem. create() 方 法 返回 一 个 FSDataOutputStream 用 于 向 新 生成 
的 文件 中 写 人 数据 ,其 成 员 变 量 dfs 的 类 型 为 DFSClient, 调 用 DFSClient. create( ) 方 法 ， 
构造 了 一 个 DFSOutputStream ,并 在 构造 函数 中 通过 RPC 调用 NameNode 的 create() 方 
法 来 创建 一 个 文件 。NameNode 检查 文件 是 否 已 存在 、 操 作 权 限 。 如 果 检 查 通 过 ， 
NameNode 记录 新 文件 信息 , 并 在 某 一 个 DataNode 上 创建 数据 块 ,并 返回 
FSDataOutputStream, 将 Client. 引导 至 该 数据 块 执行 写 入 操作 。Client 端 调用 
FSDataOutputStream. write() 方 法 向 HDFS 中 对 应 的 文件 写 入 数据 ,其 真正 写 数 据 的 操 
作 是 由 DFSOutputStream. wirteChunk() 实 现 的 ,其 代码 实现 如 下 。 


protected synchronized void writeChunk(byte[] b, int offset, int len,byte[] checksum, int ckoff, int 
cklen)throws IOException { 
dfsClient.checkOpen () ; 
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) 

if (bytescurBlock- - blockSize) ( 
currentPacket- createPacket (0, 0, bytesCurBlock, currentSegnot + ); 
currentPacket.. lastPacket TnBlock- true; 


) 
) 
) 


当 Client 端 开 始 写 入 文件 的 时 候 , 文 件 将 被 切 分 成 多 个 Packages, 在 内 部 以 数据 队 
列 (Data Queue) 形式 管 理 这 些 Packages。DFSOutputStream 还 有 一 个 队列 叫 ACK 
Queue ,等待 DataNode 的 收 到 响应 , 当 管 道 Pipline 中 的 所 有 DataNode 都 表示 已 经 收 到 
的 时 候 ,ACK Queue 才 会 把 对 应 的 Packages 移 除 掉 。 

当 Client 端 完成 写 数据 后 ,调用 close() 方 法 关闭 写 入 流 , 此 时 Client 端 将 不 会 再 向 流 中 
写 人 数据 。 当 DFSOutputStream 数据 队列 的 文件 包 全 部 收 到 ACK 应 答 后 .通知 NameNode 
关闭 文件 ,完成 一 次 正常 的 文件 写 和 人。 如 果 在 写 的 过 程 中 某 个 DataNode 发 生 错误 ,数据 流 
管道 会 被 关闭 ,已 经 发 送 到 管道 但 是 还 没有 收 到 确认 的 文件 包 , 会 被 重新 添加 到 
DFSOutputStream 的 输出 队列 ,重新 建立 新 的 管道 写 数据 到 正常 的 DataNode 中 。 


4.10 HDFS 常用 操作 
HDFS 提供 了 dfs 命令 行 接口 .dfsadmin 命令 行 接口 、Web 接口 及 HDFS API 等 方 


式 与 HDFS 文件 系统 进行 交互 。 用 户 可 以 很 方便 地 进行 上 传 文件 . 读 / 写 文件 .创建 目 
录 、 重 命名 .删除 文件 等 操作 。 


4101 dfs 命令 


Hadoop 包括 多 种 Shell 风格 的 命令 ,用 于 跟 HDFS 或 者 Hadoop 支持 的 其 他 文件 系 
统 交 互 。 其 中 ,hdfs dfs 命令 可 以 列 出 Hadoop Shell 支持 的 命令 ,只 能 支持 HDFS 文件 
系统 相关 的 操作 ,hdfs dfs 具体 命令 如 下 所 示 。 


[hadol masterl ~ ]$ hdfs dfs 
Usage: hadocp fs [generic options] 
[- agpendToFile < localsrc> ... < dst^ ] 
[- cat. [- ignoreCrc] < src» ...] 
[- checksum < src» ...] 
[- digrp [- R] GROUP PATH...] 


可 以 看 出 ,这 些 命令 不 仅 支持 一 般 文件 系统 的 操作 ,例如 复制 文件 、 修 改 文件 权限 等 ， 
同时 也 支持 了 部 分 HDFS 特有 的 命令 ,例如 修改 文件 的 replication 因子 。 而 且 ,hdfs dfs 
相当 于 hadoop fs ,两 者 的 区 别 在 于 hadoop fs 可 以 操作 任何 文件 系统 ,而 hdfs dfs 只 能 操 
作 HDFS 文件 系统 。 读 者 可 使 用 hdfs dfs -help 命令 展现 特定 命令 的 帮助 细节 ,并 对 
HDFS 进行 操作 。 


4102 ”disadmin 命令 


hdfs dfsadmin 命令 支持 一 些 HDFS 管理 功能 的 操作 。hdfs dfsadmin -help 命令 可 
以 列 出 所 有 当前 支持 的 命令 ,hdfs dfsadmin 具体 命令 如 下 所 示 。 
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— disallowSnapshot 
— shutdownDatanode. 


- setStoragePolicy 
- getStorageFolicy 
-help [and] 


Generic gptions supported are 
-onf < oanfiguration file» 
— D < prcperty= value» 

-fs < local | namenode:port^ 


— deleteBlockPool datanode host:ipc port blockpoolTd [force]] 
— setBalancerBandwidth < bandwidth in bytes per seoond» ] 

— fetchimage < local directory» ] 

— allowSnapshot. < snapshotDir» ] 


< snapshotDir^ ] 
«datanode host:ipc port» [upgrade]] 


— getDatanodeTnfo < datanode host:ipc port^] 
—metasave filename] 


path policyName] 
path] 


ifvon aries fi ion file 
use value for given prcperty 
specify a namenode 


-jt < local | rescurcemanager:port^ Specify a ResourosManager 
- files < omea separated list of files» Specify omm separated files to be ccpied to the map 


reduce cluster 


- libjars < oma separated list of jars?» specify oumma separated jar files to include in the 


classpath. 


— archives < omm separated list of archives» specify amma separated archives to be unarchived 


on the compute machines. 


The general oqmand line syntax is 
Lbin/hadoop ommand [genericOptions] [oammandoptions] 


可 以 看 出 ,hdfs dfsadmi 


n 命令 相当 于 hadoop dfsadmin 命令 ,例如 : hdfs/hadoop 


dfsadmin -report 命令 报告 HDFS 的 基本 统计 信息 ,部 分 信息 同时 展现 在 NameNode 的 


Web 首页 上 。 读 者 可 使 用 hd 
行 管理 操作 。 


4103 Web 接口 


NameNode 和 DataNode 


fs dfs -help 命令 展现 特定 命令 的 帮助 细节 ,并 对 HDFS 进 


分 别 内 置 了 一 个 Web 服务 器 ,来 展现 集群 当前 状态 的 一 些 


基本 信息 。 在 默认 配置 下 , NameNode 的 首页 地 址 是 http://namenode: 50070 
(NameNode 就 是 NameNode 节点 所 在 机 器 IP 或 者 名 称 )。 例 如 ,本 实例 Masterl. 
Hadoop 节点 为 NameNode 节点 ,其 IP 地 址 为 192. 168. 85. 100, 则 NameNode 的 首页 地 
址 为 http://192. 168. 85. 100:50070, 如 图 4. 28 所 示 。 

这 个 页 面 列 出 了 集群 中 的 所 有 DataNode 以 及 集群 的 基本 统计 。Web 接口 同样 可 以 


用 于 浏览 文件 系统 ,可 以 单 


E: NameNode 首页 上 的 Utilities Browse the file system ££ 
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E onson D O] S umeros nio <| 


Hadoop 


Overview master1 hadoop:9000' (active) 


Mon Feb 02 21:17.01 EST 2015 
260, re3490499ecb84220tba994ced4c90c8t9e33661 
2014 11.13121 10Z by jenkins rom (detached hon e349549) 
CID-a95091db 006 .tb15 .9am5 397800785543 


BP .692443946.192 168 85 100.1422926292509 


1 flos and diroctodos, 0 blocks = 1 total flasystom cbjoctts) 
Heap Memory used 30 32 MB of 53 90 MB Heap Memory. Max Heap Memory is 900.09 MB 
Non Heap Memory used 35 08 MB of 35 69 MB Commaad Non Heap Memory. Max Non Haap Memory is 130 MB. 


图 4.28 集群 基本 信息 统计 
接 ,出 现 如 图 4. 29 所 示 的 界面 。 


eS ncn D> © Borowno tors | 


Hadoop 


Browse Directory 


图 4.29 HDFS 文 件 系统 Web 接口 


该 页 面 给 出 了 HDFS 文件 系统 的 目录 及 文件 结构 ,可 以 输入 目录 ,查看 该 目录 下 的 
文件 或 目录 属性 。 本 实例 在 HDFS 的 根 目 录 “/” 下 有 两 个 目录 ,分 别 为 input 目录 和 
output 目录 。 我 们 可 以 进入 input 目录 ,该 目录 下 有 wordcount 文件 , 单 击 该 文件 可 以 查 
看 在 HDFS 上 的 存储 信息 ,也 可 以 把 该 文件 下 载 到 本 地 ,如 图 4. 30 所 示 。 

通过 Web 接口 方式 访问 HDFS, 只 能 对 文件 或 目录 进行 查 操作 ,无 法 对 HDFS 上 的 
文件 进行 读 写 操作 。 如 要 对 HDFS 上 的 文件 进行 读 写 操作 ,可 使 用 dfs 命令 或 HDFS 
API 的 方式 。 
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< EENIICUTTEIKJEDETTTEED 


File information - wordcount 


[Deseret 
Bock nomaron 


Biock ID: 1073741825 


Biock Pool ID. BP-892443946-192 168 85 100-1422926292509 
Generation Stamp 1001 
See 21 
Avanabaty 
+ Slave3 Hadoop 
* Slave? Hadoop 
* Slave2 Hadoop 


图 4.30 HDFS 文 件 目录 查看 
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HDFS API 可 以 对 HDFS 中 的 文件 进行 新 建文 件 . 读 / 写 文件 内 容 、 目 录 创 建 . 重 命 
名 和 删除 文件 等 操作 ,这些 操作 主要 涉及 HDFS API 的 Configuration 类 、FlieSystem 类 、 
FSDataInputStream 类 和 FSDataOutputStream 类 。 其 中 ,Configuration 类 主要 用 于 封装 
客户 端 和 服务 器 端的 配置 ;FileSystem 类 提供 对 文件 的 操作 方法 ;FSDatalnputStream 类 
和 FSDataOutputStream 类 是 HDFS 的 输入 输出 流 ,分 别 通过 FlieSystem. open() 方 法 和 
FileSystem. create() 方 法 获得 。 下 面 将 介绍 通过 HDFS API 对 文件 进行 各 种 操作 。 


1. 读 取 文件 


文件 在 HDFS 中 显示 为 一 个 Path 对 象 或 者 视 为 HDFS 的 一 个 URI, 可 通过 
FileSystem. get() 方 法 返回 一 个 访问 文件 的 指针 ,然后 打开 文件 进行 数据 读 取 。 本 实例 
将 读 取 HDFS 中 input 目录 下 的 wordcout 文件 内 容 ( 请 查看 本 书 配套 资料 
HadoopWorksapces 文件 夹 下 的 HDFS Jii Ho. 首先 创建 一 个 MapRedue 工程 
® Map/Reduce Project (£i X: MapReduce 工程 的 创建 请 查看 第 5 章 的 相关 内 容 ) ,新 建 一 
个 Java 类 (ReadDataFromHDFS) ,其 代码 内 容 如 下 。 


inport java.io.IOExoeption; 
import java.net.URI; 


inport org.apache.hadoop.fs.FSDataInputStream; 


FileSystem. get() 方 法 用 于 创建 一 个 DistributedFileSystem 类 的 对 象 ,然后 通过 该 
对 象 按照 HDFS 的 API 对 HDFS 中 的 文件 和 目录 进行 操作 ,如 读 取 HDFS 中 input 目录 
下 的 wordcount 文件 , 即 uri 二 "hdfs://masterl. hadoop:9000/input/wordcount"。 单 击 
Run As-*Run on Hadoop, 输 出 的 结果 为 (HDFS 中 wordcount 文件 的 内 容 ): 


2. 写 入 文件 


本 实例 将 在 HDFS 的 input 目录 下 创建 一 个 名 为 “in1” 的 文件 并 写 入 “Hello 
World!” 字 符 串 (请 查看 本 书 配套 资料 HadoopWorksapces 文件 夹 下 的 HDFS 项 目 中 的 
WriteDataToHDFS 类 ) ,其 代码 内 容 如 下 。 
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String dstFile- "hdfs://master1.hadoop:9000/input/inl"; 
Path dstPath- new Path (dstFile); 

FileSystem fs- FileSystem.get (URI.create (dstFile), conf); 
byte[] buff= "Hello World!".getBytes () ; 
FSDataOutputStream outputStream- fs.create (dstPath) ; 
outputStreem.write (buff, 0, buff.length); 


) 


FileSystem. create() 方 法 返回 的 输出 流 , 可 以 对 指定 的 HDFS 上 的 文件 进行 数据 的 
写 人 操作 ,用 FSDataOutputStream. write() 方 法 写 人 。 最 后 ,在 HDFS 中 的 input 目录 下 
将 生成 一 个 名 为 “in1” 的 文件 ,其 文件 内 容 为 “Hello World!”, 运 行 结果 如 图 4. 31 所 示 。 


= D [D CopyFlleToHDFS  @ hdfs///master1. H 


Hello world! 


esje v x 


? e WordCount | 文件 内 容 


ils Project Explorer 23 


~ 国 DFS Locations 
7 fh MyHadoop 
ve (2) 


* @ input (2) 一 ^E RES LOC ft 


È wordcount (21.0 b, r3) 
+ © output (2) 


图 4.31 写 人 文件 的 运行 结果 


3. 上 传 文件 


本 实例 将 把 本 地 目录 /home/hadoop 下 的 wordcount 文件 上 传 到 HDFS 的 根 目录 下 
(请 查看 本 书 配 套 资 料 HadoopWorksapces 文件 夹 下 的 HDFS 项 目 中 的 
UploadFileToHDFS 类 ) ,其 代码 内 容 如 下 。 


inport java.io.ICExcepticny 

inport java.net.URI; 

inport org.apache.hadoop.oonf.Configuration; 
inport org.apache.hadoop.fs.FileSystem; 
inport org.apache.hadoop. fs. Path; 


public class UploadFTleTCHIES { 
public static void main(String[] args)throws IOExcepticn ( 
Configuration conf- new Configuration (); 
String srcFile- "/home/hadoop/wordcount"7 
String dstFile- "hdfs://master1 .hadoop:9000/"7 
FileSystem fs- FileSystem.get (URI.create(dstFile), conf); 
Path srcPath- new Path (srcFile); 


sax axssisxuues QN 


Path dstPath- new Path (dstFile); 
fs.oopyFranLocalFile(srcPath, dstPath); 


1 


在 上 传 本 地 文件 到 HDFS 时 ,会 用 到 FileSystem. copyFromLocalFile() 方 法 ,其 中 
srcPath 和 dstPath 都 必须 为 完整 路 径 。 该 程序 的 运行 结果 如 图 4. 32 所 示 。 


Permission Owner Group Size Replication Block Size Name 
wer hacoop supergroup os . 0B 

drier x hacoop supergroup 0B °. og 

e >= supero EU 3 [rj 


图 4.32 上 传 文件 结果 


有 关 通 过 HDFS API 对 HDFS 的 更 多 操作 ,请 查看 Hadoop API( 请 查看 本 书 配套 资 
料 中 Hadoop-2. 6. 0-API 文件 夹 中 的 相关 内 容 )。 其 中 ,FileSystem 类 提供 了 对 HDFS 中 
文件 的 很 多 操作 方法 ,比如 : 

(D listStatus() 方 法 查看 指定 HDFS 目录 下 的 文件 列表 ; 

(2) create() 方 法 用 于 在 HDFS 上 创建 文件 ; 

(3) mkdir( ) 方 法 用 于 在 HDFS 上 创建 目录 ; 

(4) rename() 方 法 用 于 在 HDFS 上 对 文件 进行 重 命名 ; 

(5) delete() 方 法 用 于 在 HDFS 上 对 指定 文件 进行 删除 操作 ; 

(6) getmodificationtime() 方 法 用 于 查看 HDFS 上 指定 文件 的 修改 时 间 ; 

(7) exits() 方 法 用 于 查看 指定 的 HDFS 文件 是 否 存在 ; 

(8) getBlockLocation() 方 法 用 于 查看 指定 HDFS 文件 在 集群 中 的 位 置 ; 

(9) getHostname() 方 法 用 于 获取 HDFS 集群 上 所 有 的 节点 名 称 。 

请 读者 认真 阅读 有 关 HDFS API 的 相应 类 ,如 Configuration 类 、FlieSystem 类 、 
FSDatalnputStream 类 和 FSDataOutputStream 类 ,并 实际 操作 进行 验证 和 理解 。 


MepReduce 是 一 种 用 于 大 规模 数据 处 理 的 分 布 式 计算 框架 ,是 Hadoop 的 核心 组 件 之 一 。 
它 的 主要 思想 来 自 于 分 而 治之 (Mep 过 程 和 Reduce 过 程 ) ,Mep 过 程 是 将 一 个 大 的 问题 切换 成 
很 多 小 的 问题 ,然后 在 集群 中 的 各 个 节点 上 执行 ,Reduce 过 程 是 将 Meo 阶段 产生 的 结果 进行 
汇集 。 本 章 将 重点 介绍 MepReduce 的 架构 结构 、 工 作 原 理 以 及 实例 演示 等 内 容 。 


5.1 MapReduce 概述 


MapReduce[ 细 是 一 种 高 性 能 的 批 处 理 分 布 式 计算 框架 ,用 于 海量 数据 的 并 行 分 析 和 
处 理 。 该 框架 的 基本 原理 和 主要 设计 思想 来 源 于 2004 年 Google 公司 Dean Jeffrey 等 人 
在 国际 会 议 上 发 表 的 MapReduce: Simplified Data Processing on Large Clusters 论 
文 c6] 。 同 年 ,开源 项 目 Lucene( 搜 索索 引 程 序 库 ) 和 Nutch( 搜 索引 擎 ) 的 创始 人 Doug 
Cutting 为 了 解决 搜索 引擎 中 大 规模 网 页 数据 的 并 行 化 处 理 , 实 现 了 基于 Google 
MapReduce 思想 的 开源 MapReduce。 目 前 ,MapReduce 已 成 为 Hadoop 子 项 目 中 最 重要 
的 项 目 之 一 ,而 且 被 广泛 应 用 于 海量 数据 的 搜索 .挖掘 .分 析 等 方面 。MapReduce 的 主要 
特点 如 下 。 


1. 可 扩展 性 


MapReduce 的 扩展 性 包括 数据 的 可 扩展 性 和 计算 规模 的 可 扩展 性 。MapReduce 的 
数据 可 扩展 性 体现 在 随 着 数据 规模 的 扩大 而 表现 持续 的 有 效 性 ;计算 规模 的 可 扩展 性 体 
现在 随 着 集群 中 节点 数 的 增加 保持 接近 线性 的 增长 。 


2. 高 容错 性 


MapReduce 的 高 容错 性 体现 在 可 动态 增加 /减少 计算 节点 ,真正 实现 了 弹性 计算 ,而 
且 该 框架 使 用 了 多 种 有 效 的 机 制 来 提高 容错 性 ,如 节点 自动 重启 技术 , 当 集 群 中 的 节点 失 
效 时 ,能 有 效 处 理 失 效 节 点 的 检测 和 恢复 。 


3. 高 效 性 
MapReduce 采用 了 数据 /代码 互 定位 的 技术 方法 ,减少 了 集群 中 的 数据 通信 ,从 而 有 
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效 降低 网 络 带宽 。 集 群 中 的 每 个 计算 节点 尽量 负责 处 理 本 地 存储 的 数据 , 仅 当 本 地 节点 
无 法 处 理 本 地 数据 时 ,再 采用 就 近 原则 寻找 其 他 可 用 计算 节点 ,并 把 数据 传送 到 该 可 用 计 
算 节 点 。 


4. 动态 灵活 的 资源 分 配 和 调度 


MapReduce 将 提交 的 计算 作业 分 为 多 个 计算 任务 ,任务 调度 功能 主要 负责 为 这 些 划 
分 后 的 计算 任务 分 配 和 调度 计算 节点 (Map 节点 和 Reduce 节点 ) ,同时 也 负责 一 些 计算 
性 能 的 优化 处 理 , 如 支持 作业 调度 的 优先 级 和 任务 抢占 等 。 


5. 隐藏 底层 细节 


MapReduce 的 最 大 优势 在 于 封装 了 底层 实现 细节 ,减少 了 编程 人 员 在 大 规模 数据 处 
理 时 需要 考虑 诸如 数据 分 布 存储 管理 ,数据 分 发 .数据 通信 和 同步 等 诸多 细节 问题 ,有 效 
降低 了 并 行 编程 难度 。 编 程 人 员 可 以 从 底层 细节 中 解放 出 来 , 仅 需 要 关心 应 用 层 本 身 的 
算法 设计 ,从 而 提高 了 编程 人 员 在 分 布 式 编程 环境 下 的 编程 效率 。 

总 之 ,MapReduce 提供 了 一 个 统一 的 计算 框架 ,实现 了 在 分 布 式 环境 中 计算 任务 的 
划分 和 调度 ,数据 的 分 布 存储 和 划分 ,处 理 数据 与 计算 任务 的 同步 ,结果 数据 的 收集 整理 ， 
计算 性 能 优化 处 理 , 计 算 节 点 出 错 检测 和 失效 恢复 等 功能 。MapReduce 适合 处 理 各 种 类 
型 的 数据 ,包括 结构 化 、 半 结构 化 和 非 结构 化 数据 ,而 且 处 理 的 数据 量 在 TB 和 PB 级 别 ， 
并 且 经 过 大 量 实际 生产 环境 的 使 用 和 验证 ,具有 高 可 用 性 。 


5.2 MapReduce 原理 


MapReduce 的 开发 和 实现 遵循 了 Google MapReduce 的 设计 思想 , 即 MapReduce 将 
任务 分 解 为 大 量 的 并 行 Map 任务 和 Reduce 汇总 任务 。 然 后 把 拆 分 成 的 若干 个 Map 任 
务 分 配 到 不 同 的 节点 上 去 执行 ,每 一 个 Map 任务 处 理 输入 数据 中 的 一 部 分 。 当 Map 任 
务 完成 之 后 ,会 生成 一 些 中 间 文 件 ,而 这 些 中 间 文 件 将 会 作为 Reduce 任务 的 输入 数据 。 
各 个 Reduce 任务 把 前 面 若 干 个 Map 任务 完成 后 的 中 间 结 果 进 行 汇总 ,最 终 汇总 所 有 
Reduce 任务 的 输出 结果 即 可 获得 最 终结 果 。 简 单 地 说 , MapReduce 就 是 任务 的 分 解 与 
结果 的 汇总 ,其 处 理 过 程 如 图 5. 1 所 示 。 

其 中 ,每 个 Map 或 Reduce 任务 都 相对 独立 ,而 且 在 进行 Reduce 任务 之 前 ,必须 等 到 
所 有 的 Map 任务 执行 完成 并 输出 结果 。 在 Hadoop 中 ,每 个 MapReduce 任务 都 被 初始 
化 为 一 个 作业 (Job) ,每 个 作业 又 可 以 分 为 Map 阶段 和 Reduce 阶段 ,这 两 个 阶段 分 别 由 
map RŽI reduce 函数 表示 。 其 中 ,map 函数 用 于 接收 基于 二 key,value 记 形式 的 数据 
集 ,然后 同样 产生 二 key,value 二 形式 的 中 间 输 出 ;reduce 函数 用 于 接收 基于 二 key, (list 
of values) 过 形式 的 输入 数据 ,然后 对 value 集合 进行 处 理 , 每 个 reduce 产生 0 个 或 1 个 
输出 ,其 输出 的 形式 也 为 二 key,value 二 。 在 此 过 程 中 ,Map 阶段 和 Reduce 阶段 之 间 还 有 
一 系列 的 过 程 , 即 把 Map 执行 完成 产生 的 中 间 结 果 二 key,value 二 转化 为 Reduce 任务 的 
输入 数据 二 key, (list of values) 二 ,如 分 区 (Partition) ,HEFF (Sort) ,压缩 (Combine)、 复 制 
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CCopy)、 合 并 (Merge) 等 过 程 ,这 些 过 程 往往 被 统称 为 "Group 阶段 ”, 其 目的 就 是 对 数据 
进行 梳理 、 排 序 ,以 更 科学 的 方式 分 发 给 每 个 Reduce 阶段 ,以 便 能 够 更 高 效 地 进行 计算 


和 处 理 。 
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图 5.1 MapReduce 原理 


5.3 MapReduce 框架 


MapReduce 的 基本 工作 原理 比较 简单 ,但 要 开发 一 套 具 有 可 扩展 性 、 可 用 性 、 灵 活性 
的 MapReduce 框架 并 不 容易 ,不 仅 要 考虑 到 Map 和 Reduce 并 行 计算 本 身 ,还 要 考虑 到 
并 行 编程 中 分 布 式 存储 、 工 作 调 度 、 负 载 均 衡 、 容 错 均 衡 、 容 错 处 理 及 网 络 通信 等 复杂 问 
题 。 下 面 将 介绍 在 Hadoop 1.0 生态 系统 和 Hadoop 2. 0 生态 系统 中 的 MapReduce 
框架 。 
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在 Hadoop 1.0 生态 系统 中 的 MapReduce 框架 采用 Master/Slave 架构 模式 ,并 且 用 
于 执行 MapReduce 任务 的 机 器 角色 有 两 个 , 即 Master JobTracker 和 Slave 
TaskTracker, 如 图 5.2 所 示 。 这 两 个 角色 和 分 布 式 文件 系统 HDFS 的 角色 运行 在 一 组 
相同 的 节点 上 , 即 计算 节点 和 存储 节点 在 一 起 。 其 中 ,Master JobTracker 负责 调度 构成 
一 个 作业 的 所 有 任务 ,这 些 任务 分 布 在 不 同 的 Slave 节点 上 ;Slave TaskTracker 仅 负责 
执行 由 Master 指派 的 任务 。Hadoop 1. 0 生态 系统 中 的 MapReduce 框架 (MRv1) 如 
图 5.2 所 示 。 

从 图 5.2 中 可 以 看 出 , MapReduce 框架 实现 了 一 个 相对 简单 的 集群 管理 器 来 执行 
MapReduce 处 理 , 其 工作 流程 如 下 。 
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图 5.2 Hadoop 1. 0 生态 系统 中 的 MapReduce 框架 


Ü 


(1) 当 一 个 Client 端 向 一 个 Hadoop 集群 发 出 一 个 作业 请 求 时 , 由 用 户 程 序 
(JobClient) 提 交 一 个 作业 (Job) ,该 作业 的 信息 会 发 送 到 JobTracker 中 。 

(2) JobTracker 主要 负责 与 集群 中 的 节点 定时 通信 ,并 将 Map 和 Reduce 任务 安排 

一 个 或 多 个 TaskTracker 上 的 可 用 节点 中 。 此 外 ,JobTracker 还 负责 所 有 Job 的 重启 
s... 

(3) TaskTracker 主要 负责 监视 自己 所 在 节点 的 资源 情况 ,并 监视 当前 节点 的 tasks 
运行 状况 。 同 时 , TaskTracker 需要 把 这 些 信 息 通 过 心跳 机 制 发 送 给 JobTracker， 
JobTracker 根据 这 些 信息 为 新 提交 的 Job 分 配 运行 节点 。 图 中 虚线 箭头 表示 消息 的 发 送 
和 接收 的 过 程 。 

由 于 MapReduce 框架 本 身 设 计 的 缺陷 ,在 大 型 集群 上 运行 表现 出 众多 不 足 , 如 
JobTracker 是 集群 事务 的 集中 处 理 点 ,存在 单 点 故障 ;JobTracker 既 要 维护 Job 的 状态 
又 要 维护 Job 的 Task 状态 ,造成 过 多 的 资源 消耗 等 。 
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为 了 解决 Hadoop 1.0 生态 系统 中 MapReduce 在 可 扩展 性 、 内 存 消耗 ,线程 模型 .可 
靠 性 和 性 能 上 的 缺陷 。 从 Hadoop 0. 23. 0 版 本 开始 ,Hadoop 的 MapReduce 框架 完全 重 
构 , 即 Hadoop 2. 0 生态 系统 中 的 MapReduce 框架 (MRv2)。 第 二 代 MapReduce(MRv2) 
与 第 一 代 MapReduce(MRv1) 在 编程 接口 .数据 处 理 引 擎 方面 Map 和 Reduce 是 完全 一 
样 的 , 即 MRv2 重用 了 MRv1 的 这 些 模块 。 它 们 之 间 的 不 同 之 处 在 于 : 资源 管理 和 作业 
管理 。MRvl 中 资源 管理 和 作业 管理 均 是 由 JobTracker 实现 的 , 集 两 个 功能 于 一 体 ; 


CA 深入 浅 出 大 数据 


MRv2 中 将 这 两 部 分 分 开 了 ,其 中 ,作业 管理 由 ApplicationMaster 实现 ,而 资源 管理 由 新 
增 系 统 YARN 完成 。 由 于 YARN 具有 通用 性 ,因此 基于 YARN 的 MapReduce 框架 可 
称 为 “MapReduce on YARN" ,该 框架 如 图 5.3 所 示 。 
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实体 机 器 -可 称 为 TaskSlaver 
图 5.3 Hadoop 2. 0 生态 系统 的 MapReduce on YARN 


从 图 5. 3 中 可 以 看 出 ,ResourceManager 是 该 框架 的 核心 ,用 于 调度 .启动 每 个 Job 
所 属 的 ApplicationMaster, 以 及 监控 ApplicationMaster 的 存在 情况 。 而 且 ,MapReduce 
CMRv2) 将 MRvI 中 的 JobTracker 的 功能 分 离 成 单独 的 组 件 , 即 ApplicationMaster 和 
ResourceManager。 其 中 ,ApplicationMaster 负责 作业 的 调度 和 协调 ; ResourceManager 
负责 对 内 存 、CPU、 磁 盘 、 网 络 等 资源 进行 管理 。NodeManager 相当 于 MRvl 中 的 
TaskTracker, 监 控 应 用 程序 的 资源 使 用 情况 并 向 ResourceManager 汇报 。 

新 的 MapReduce(MRv2) 框 架 与 旧 的 MapReduce(MRv1) 框 架 相 比 , 原 框架 中 核心 
的 JobTracker 和 TaskTracker 被 ResourceManager、ApplicationMaster 和 NodeManager 
所 取代 。 这 种 设计 大 大 减 小 了 原 框架 中 JobTracker 的 资源 消耗 ,而 且 ApplicationMaster 
是 一 个 可 变 部 分 ,用 户 可 以 对 不 同 的 编程 模型 编写 自己 的 AppMst, 大 大 提高 了 原 框架 的 
可 扩展 性 。 另 外 ,新 旧 框 架 的 配置 文件 、 启 停 脚本 及 全 局 变量 等 也 发 生 了 变化 ,读者 在 使 
用 时 需要 根据 不 同 的 MapReduce 框架 进行 相应 的 配置 。 当 用 户 在 使 用 MapReduce 框架 
时 ,由 于 MapReduce 框架 对 开发 使 用 者 透明 化 ,其 调用 API 及 接口 大 部 分 都 保持 兼容 ， 
因此 对 用 户 的 影响 并 不 大 。 
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5.4 MapReduce 开发 环境 


MapReduce 是 一 个 能 够 对 大 量 数据 进行 分 布 式 处 理 的 并 行 计算 框架 ,但 在 编写 、 调 
试 MapReduce 程序 时 会 带 来 很 大 难度 。 针 对 此 问题 ,Hadoop 开发 者 提供 了 Hadoop 
Eclipse 插件 ,从 而 方便 开发 者 在 Eclipse 图 形 界面 中 编写 、 调 试 和 运行 MapReduce 程序 。 


541 搭建 VepReduce 开发 环境 
MapReduce 开发 环境 的 具体 搭建 过 程 如 下 。 
1. 下 载 Eclipse 及 Hadoop 插件 


Eclipse 的 下 载 可 到 官网 (http://www. eclipse. org/downloads/) 根 据 自 己 操作 系统 
的 版 本 选择 32 位 或 64 位 版 本 (本 实例 是 在 Masterl. Hadoop 节点 上 搭建 Hadoop 开发 环 
境 ,选择 了 Eclipse Linux 64 位 版 本 ), 下 载 完 成 后 直接 解压 就 可 以 使 用 Eclipse 了 。 
Hadoop 插件 要 根据 Hadoop 版 本 进行 选择 ,也 可 以 直接 下 载 Hadoop 源码 并 编译 生成 插 
件 ( 本 实例 使 用 的 Hadoop 2. 6 版 本 ,在 本 书 配 套 资料 中 的 softwares 目录 下 的 hadoop- 
eclipse-plugin-2. 6. 0. jar 为 Hadoop 2. 6 的 插件 ), 再 将 下 载 的 hadoop-eclipse-plugin- 
2. 6.0.jar 文 件 放 到 Eclipse 的 plugins 目录 下 ,重启 Eclipse 即 可 看 到 该 插件 已 生效 ,如 
图 5.4 所 示 。 
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图 5.4 配置 Hadoop Map/Reduce 


2. 配置 Eclipse 环境 


如 果 Hadoop 插件 安装 成 功 ,启动 Eclipse 后 ,打开 Window Preferences 选项 卡 ,会 
发 现 Hadoop Map/Reduce 选项 ,在 这 个 选项 里 需要 配置 Hadoop 的 安装 目录 (本 实例 
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Hadoop 2. 6 的 安装 目录 为 /opt/hadoop-2. 6. 00 ,配置 完成 后 单 击 Apply 按钮 ,如 图 5.4 


所 示 。 
3. 切换 MapReduce 工作 目录 


切换 到 MapReduce 工作 目录 有 多 种 方式 ,可 以 打开 Window— Open Perspective > 
Other... 选 项 卡 , 从 中 选择 Map/Reduce 选项 ,或 者 在 Eclipse 软件 的 右上 角 , 单 击 


B 


单 击 OK 按钮 , 即 可 切换 到 Map/Reduce 工作 目录 ,如 图 5.5 所 示 。 


UT ng die . A o H: BJ Open Perspective 选项 卡 中 选择 Map/Reduce 选项 ,然后 


切换 为 


ET | ER 一 MapReduce 


MapiReduce - Eclipse. 
Eie Edt Source Refaior Navigate Seach Broject Bun Window Help 
MemveusonitvOvReigGv oss "ü v Ov 5. 

Gud 

切换 到 bProjectEx n = D 

MapReduce Bur 人 

界面 ， 将 会 一 | [eem] 

出 现 DFS 

Locations 

LEES 

0 items 

Description. Resource — Path 
|o ems selected 


5.5 MapReduce 工作 界面 


4. 建立 与 Hadoop 集群 连接 


An outline is not 
avatable, 


工作 界面 


单 击 MapReduce 工作 界面 中 的 MapReduce Location, 在 该 区 域 右 击 ,选择 New 


Hadoop Location... ,如 图 5. 6 所 示 。 
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5.6 Œ Hadoop Location 


进入 MapReduce 配置 环境 界面 后 ,Location name 是 标识 一 个 MapReduce Location 
(本 实例 定义 为 MyHadoop) ,Map/Reduce(V2) Master 中 Host 为 Resource Manager 机 
器 名 或 IP 地 址 (本 实例 Rescoure Manager 为 Masterl. Hadoop), Port 为 Resource 
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Manager 接受 任务 的 端口 号 , 即 yarn-site. xml 文件 中 yarn. resourcemanager. scheduler. 
address 配置 项 中 的 端口 号 (本 实例 在 yarn-site. xml 中 配置 的 端口 号 为 8030)。DFS 
Master 中 的 Host 为 NameNode 机 器 名 或 IP 地 址 (本 实例 的 NameNode 为 Masterl. 
Hadoop) ,Port 为 core-site. xml 文件 中 fs. defaultFS 配置 项 中 端口 号 (本 实例 在 core- 
site. xml 中 配置 的 端口 号 为 9000) 。 最 后 , 单 击 Finish 按钮 完成 配置 ,如 图 5. 7 所 示 。 


输入 一 个 

MapReduce Location 
配置 参数 与 
core-site ,xml 文件 相同 
配置 参数 与 
yarn-site.xml 文 件 相 同 


图 5.7 MapReduce 配置 环境 界面 


单 击 Finish 按钮 之 后 ,会 发 现在 Map/Reduce Locations 区 域 出 现 了 一 条 刚才 建立 的 
“MapReduce Location”。 如 果 未 提示 连接 错误 信息 , 则 表明 连接 Hadoop 集群 成 功 ,可 在 
Eclipse Zr fil X BL fif] E DFS Locations 中 出 现 CentOS HDFS 的 目录 树 , 该 目录 为 HDFS 文件 
系统 中 的 目录 结构 和 文件 (本 实例 HDFS 文件 系统 为 空 , 因 此 显示 为 0) ,并 且 右 击 空白 区 
域 选择 相应 的 操作 可 对 HDFS 进行 操作 ,如 图 5. 8 所 示 。 如 果 提 示 连 接 错 误 信 息 , 请 检 
查 Hadoop 是 否 启动 ,以 及 Eclipse 配置 是 否 正确 。 


It; Project Explorer 2t 


eg? v 


~ 国 DFS Locations 


> fh MyHadoop - 一 一 = 


Download from DFS... 
Create new directory.. 


Upload files to DFS... 


Upload directory to DFS.. 


Refresh 


Delete 


5.8 HDFS 目录 结构 


Q7) sxsuxus 


到 此 为 止 ,Hadoop 的 Eclipse 开发 环境 已 经 配置 完毕 ,读者 可 以 上 传 本 地 文件 到 集 
群 的 HDFS 分 布 式 文件 上 进行 验证 。 


542 开发 MepReduce 应 用 程序 


MapReduce 的 Eclipse 开发 环境 配置 完成 后 ,在 Eclipse 图 形 界 面 中 编写 、 调 试 和 运 
行 MapReduce 程序 将 更 加 便捷 。 下 面 将 详细 介绍 如 何在 Eclipse 中 开发 MapReduce 应 
用 程序 (以 Hadoop 自 带 的 WordCount 项 目 为 例 , 请 查看 本 书 配 套 资料 中 
HadoopWorksapces 文件 夹 下 的 WordCount 项 目 ) ,具体 操作 步骤 如 下 。 


1. 上 传 测试 数据 


在 保证 Hadoop 集群 已 启动 的 前 提 下 ,通过 Eclipse 左 侧 DFS Locations 的 CentOS 
HDFS 目录 树 来 完成 测试 数据 的 上 传 。 在 本 实例 中 ,在 HDFS 上 创建 了 一 个 名 为 “input” 
的 文件 夹 (作为 文件 输入 目录 ) ,在 该 文件 夹 下 导入 了 本 地 文件 名 为 “wordcount” 的 文本 ， 
该 文本 内 容 为 : 


Hello World! 
Hadoop! 


文件 上 传 过 程 如 图 5.9 所 示 。 


R Project Explorer 8 um 


* fh MyHadoop 
"e (2 


= Download gm DFS... Eli 


| 
[Upload files to DFS... 
Upload dirKktory to DFS. 
*G wd Refresh 上 传 本 地 文件 到 HDFS 


"es 
Delete 


图 5. 9 上 传 本 地 测试 数据 到 HDFS 


文件 上 传 成 功 后 ,将 在 Eclipse 左 侧 DFS Locations 的 CentOS HDFS 目录 树 中 出 现 
刚刚 创建 的 文件 内 容 ,或 者 在 HDFS 文件 系统 中 查看 (浏览 器 地 址 栏 中 输入 “http://192. 
168. 85. 100:50070/”) ,如 图 5. 10 所 示 。 


2. 创建 WordCount 项 目 


在 Eclipse 的 菜单 栏 中 选择 File New 一 Other... 选 项 卡 ,从 中 选择 Map/Reduce 
Project( 如 果 没 有 该 选项 ,请 检查 Hadoop Eclipse 插件 是 否 安装 ) ,如 图 5. 11 所 示 。 
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Browse Directory 


输入 文件 目录 ， 查 看 文件 
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单 击 可 下 载 文件 或 查看 文件 属性 
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5.10 本 地 文件 成 功 上 传 到 HDFS 


Select a wizard 


Wizards: 


? © General Nace UR 
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» @ Git 

+ © Java 


[> & Map/Reduce 


@ m | Fan 


图 5.11 创建 MapReduce 项 目 选项 卡 


HE Next 按钮 进入 MapReduce 项 目 设置 选项 卡 ,其 中 项 目 名 为 “WordCount”, 再 选 
择 Use Default Hadoop, 并 设置 Hadoop 的 安装 路 径 。 本 实例 Hadoop 的 安装 路 径 为 
/opt/hadoop-2. 6.0。 最 后 , 单 击 Finish 按钮 完成 MapReduce 项 目 设 置 , 如 图 5. 12 所 示 。 


3. 创建 WordCount 类 


在 WordCount 项目 中 ,创建 一 个 名 为 “WordCount” 的 类 ,在 这 里 直接 用 Hadoop 2. 6 
自 带 的 WordCount 程序 ,所 以 类 名 需要 和 代码 中 的 一 致 为 “WordCount”, 包 名 也 必须 一 


致 为 “org. apache. hadoop. mapred”。 最 后 , 单 击 Finish 按钮 完成 WordCount 类 的 创建 ， 
如 图 5. 13 所 示 。 


C» 深入 浅 出 大 数据 


New MapReduce Project Wizard 


MapReduce Project 
Create a MapReduce project. 


"V. Use default Location SS 输入 项 目 名 ， 本 实例 项 目 名 为 : WordCount 


Location: | /home/ 


rkspaces/W 


Hadoop MapReduce Library Installation Path 


e 
N Specify Hadoop library Location Brow 

设置 Hadoop 安 装 路 径 | 
本 实例 Hadoop 安 装 路 径 为 : /opt/hadoop-2.6.0 


@ <Back | Next» || Camel 


图 5. 12 MapReduce 项 目 设置 选项 卡 


New Java Class 


Java Class 


Create a new Java class. 


Source folder: WordCount/src | 


设置 包 名 | 


M Enclosing type: 


设置 类 名 


Modifiers: ' public O package O private 

NM abstract M final N static 
Superclass: java.lang.Object | Browse. | 
Interfaces: 


Which method stubs would you like to create? 
口 public static void main(String[] args) 


N Constructors from superclass 


o Cancel 


5.13 在 Eclipse 中 创建 WordCount 类 
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直接 用 Hadoop 2.6 自 带 的 WordCount 程序 (源码 在 \hadoop-2. 6. 0-src V hadoop- 
2. 6. 0-src\hadoop-mapreduce-project\hadoop-mapreduce-examples\ 目 录 下 ), WordCount 
类 的 代码 内 容 如 下 。 


import java.io.IOExcepticny 

import java.util.ArrayList; 

inport java.util.Iterator; 

inport java.util.List; 

import java.util.StringTokenizer; 

inport org.apache.hadoop.conf .Configuration; 
inport org.apache.hadoop.conf .Configured; 

import org.apache.hadoop. fs. Path; 

inport org.apache.hadoop.io.Text; 

inport org.apache .hadoop.mapred.Fi leInputFomat; 
inport org.apache.hadoop.mapred.Fi leOutputFormat ; 
inport org.apache .hadoop.mapred. JabConf ; 

inport org.apache.hadoop.mapred.MapReduoeBase; 
inport org.apache.hadoop.mapred.Magper; 

inport org.apache.hadoop.mapred.OutputCollector; 
import org.apache.hadoop.mapred.Reducer; 

inport org.apache.hadoop.mapred.Feporter; 

inport org.apache.hadoop.util.Tool; 


public class Wordcount extends Configured implements Tool { 
Amplements Mapper< IongWritable, Text, Text, IntWritable» ( 


private final static IntWritable one-new IntWritable (1); 
private Text word- new Text () ; 
Public void map Longaritable key, Text value, 
OutputCollector« Text, IntWritable» output, 
Reporter reporter)throws ICExoeption { 
String line- value.toString() ; 
Stringlokenizer itr- new StringTokenizer (line); 
while (itr.hasMoreTokens () ) ( 
word.set (itr.nextToken () ) ; 
output.collect (word, ons); 
) 


# 53% Ads aptos QUI 


retum printUsage() ; 


if(other args.size() '-2)( 
System.out.println("ERROR: Wrong number of parameters: "+ 
other args.size()* " instead of 2."); 
retum printUsage() ; 
) 
FileInputFormat.setInputPaths(conf, other args.get(0)); 
FileoOutputFommat..setOutputPath(conf, new Path (other args.get (1))); 
JacClient.runJab (conf) ; 
retum 0; 
) 
Public static void main (String[] args)throws Exception ( 
int res- ToolRunner.run (new Configuration () , new WordCount (), args); 
Systen.exit (res); 
) 
) 


4. 运行 WordCount 程序 


运行 WordCount 程序 前 ,需要 配置 运行 参数 。 右 击 WordCount 项 目 ,选择 Run 
Run Configurations... 命 令 设 置 运 行 参数 ,需要 在 Arguments 选项 卡 中 填写 WordCount 
运行 的 输入 路 径 和 输出 路 径 参 数 。 本 实例 的 输入 路 径 为 “hdfs://masterl. hadoop:9000/ 
input/”; 输 出 路 径 为 “hdfs://masterl. hadoop:9000/output/”, 如 图 5. 14 所 示 。 


Run Configurations - 


Create, manage, and run configurations 


Lj ë X | E P v Name: | WordCount 


© Mii mà JRE | 5; Classpath Hy Source environment m 


El Java Applet Program arguments: 


~ E Java Application. [Fdfs://master1 hadoop: 9000/input/ bars //master1 hadoop:9000/output/] 
c ! 
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PET i 3 
3v JUnit WARE HIRE Variables.. | 
m Maven Build 


NM arguments: 
Jy Task Context Test | 


Variables.. | 


Working directory: 
|。 Default: — |+(workspace-loc-WordCcunt) | 


Filter matched 6 of 6 items 


9 Close 


图 5.14 配置 WordCount 运行 参数 
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配置 完 WordCount 运行 参数 后 , 单 击 Apply Run 按钮 就 完成 了 WordCount 程序 
的 运行 (首次 运行 时 ,需要 选择 Run on Hadoop), 


5. 查看 运行 结果 


运行 成 功 后 ,刷新 CentOS HDFS 中 的 输出 路 径 ,会 发 现 多 了 output 文件 夹 ,在 该 文 
FJ FAB -SUCCESS (0.0 b, r3) 和 国 part-00000 (27.0 b, r3) 两 个 文件 ,如 图 5. 15 所 示 。 


> fh MyHadoop 
"e (2 
* @ input (1) 
目 wordcount (21.0 b, r3) 


output (2) 
SUCCESS (0.0 b, r3) 


00000 (27.0 b, r3) 


图 5. 15  WordCount 运行 结果 


双击 恒 part-00000 (27.0b,r3) 文 件 , 查 看 运行 结果 。 上 传 的 测试 文件 wordcount 中 只 
有 “Hello World! Hadoop!" 这 几 个 单词 ,因此 输出 结果 如 下 。 


Hadoop! 1 
Hello 1 
World! 1 


到 此 为 止 ,一 个 完整 的 MapReduce 应 用 程序 开发 完毕 。 请 读者 认真 理解 和 体会 ,要 
学 会 触 类 旁 通 , 后 面 章 节 中 的 项 目 创 建 、 代 码 编写 .调试 和 运行 MapReduce 程序 ,都 将 在 
Eclipse 工具 中 进行 。 


5.5 MapReduce 编程 过 程 


Hadoop 2.0 生态 系统 中 YARN 下 的 MapReduce( MRv2) #ll Hadoop 1. 0 生态 系统 
中 的 MapReduce(MRv1) 都 是 基于 Goolge 的 MapReduce 思想 实现 的 。 虽 然 两 者 在 框架 
上 有 所 区 别 , 但 是 两 者 的 调用 API 及 接口 大 部 分 都 保持 兼容 ,因此 从 编程 实现 方式 上 保 
持 一 致 。MapReduce 的 编程 过 程 如 图 5. 16 所 示 。 


MapReduce 编 程 过 程 > 


InputFormat ex Map xx Combine/Partition/--- J= Reduce |=  Ouputoma: ) 


5.16 MapReduce 编程 过 程 


注 : 在 实际 MapReduce 编程 过 程 中 ,只 需要 实现 Map 和 Reduce 即 可 ,其 他 过 程 都 
已 默认 指定 了 。 
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在 编写 MapReduce 应 用 程序 时 ,首先 要 通过 InputFormat 设置 应 用 程序 的 数据 输入 
格式 ,Hadoop MapReduce 框架 提供 了 大 量 的 输入 格式 可 供 选择 ,主要 区 别 在 于 文件 输入 
格式 和 二 进 制 输入 格式 ,如 表 5. 1 所 示 为 MapReduce 几 种 比较 常用 的 输入 格式 。 


表 5.1 MapReduce 几 种 常用 的 输入 格式 


输入 分 类 输入 格式 说 RB 
以 文本 文件 中 的 一 行 作 为 记录 来 进行 处 理 ,其 中 文 
TextInputFormat 本 输入 的 格式 的 Key 为 LongWriteable, Value 为 
Text 类 型 
文本 输入 KeyValueTextInputFormat E ca CONTENTER 
Niiselipatfosmst 用 于 对 少量 文件 数据 做 一 些 分 散 的 并 行 处 理 任务 ， 
e 然后 产生 汇总 输出 
StreamInputFormat 用 于 处 理 大 型 的 XML 文档 


用 于 处 理 二 进 制 键 值 对 的 序列 ,其 中 Key 的 类 型 为 
IntWriteable, Value 类 型 为 Text 

用 于 顺序 文件 作为 流 操 作 的 输入 ,并 将 Key 和 
Value 都 转换 为 Text 对 象 

用 于 处 理 任意 二 进 制 的 数据 类 型 ,并 将 顺序 文件 的 
Key 和 Value 作为 二 进 制 对 象 

用 于 解决 数据 多 样 性 的 问题 ,可 在 每 个 文件 上 设置 
InputFormat 类 型 

是 从 关系 型 数据 库 中 读 取 数 据 的 一 种 格式 ,可 将 数 
据 传 到 集群 中 进行 处 理 


SequenceFileInputFormat 


二 进 制 输 入 | SequenceFileAsTextInputFormat 


SequenceFileAsBinaryInputFormat 


多 样式 输入 | MultipleInputs 


数据 库 输入 | DBInputFormat 


要 设置 MapReduce 应 用 程序 的 数据 输入 格式 ,首先 要 定义 一 个 JobConf 类 对 象 , 然 
后 通过 该 对 象 调用 setInputFormat 设置 输入 数据 的 格式 ,最 后 设置 输入 目录 的 路 径 ,其 
代码 如 下 所 示 。 


/定义 一 个 Jdbconf 类 对 象 

JEbconf onf; 

// 设 置 输入 数据 格式 

conf.setInputFormmatClass (KeyValueTextInputFormat.class)7 

// 设 置 输入 目录 路 径 

了 ileInputFormat.setInputPaths (conf,MapReduceConfig.getInputDirecticnary())7 


其 中 ,KeyValueTextInputFormat 为 我 们 设 定 的 数据 读 取 格 式 ; FileInputFormat 是 
所 有 以 文件 作为 数据 源 的 InputFormat 的 实现 。 通 过 这 条 语句 保证 了 输入 文件 会 按照 预 
设 的 格式 被 读 取 。InputFormat 接口 定义 了 两 个 抽象 方法 : getSplits 和 
createRecordReader 方法 。 其 中 .getSplits 方法 根据 作业 的 配置 ,将 输入 文件 切片 并 返回 


[4 p y 


一 个 InputSplit 类 型 的 数组 ; createRecordReader 方法 为 InputSplit 实例 对 象 生成 一 个 
RecordReader 对 象 。InputFormat 类 的 代码 内 容 如 下 。 


InputSplit 类 又 定义 了 三 个 方法 : getLength,getLocationInfo 和 getLocations 方法 。 
其 中 ,getLength 方法 用 于 获取 切片 的 大 小 ,方便 下 一 步 根据 输入 切片 的 大 小 进行 排序 ; 
getLocations 方法 用 于 获取 输入 数据 所 在 节点 的 名 称 ;getLocationInfo 方法 用 于 获取 切 
片 的 存储 信息 。InputSplit 类 代码 内 容 如 下 。 


RecordReader 类 实现 了 Closeable 接口 .用 于 将 输入 数据 切片 转换 成 key/value Xf. 
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作为 Map 的 输入 。 该 类 共 定 义 了 6 个 抽象 方法 : initialize、nextKeyValue、 
getCurrentKey .getCurrentValue、getProgress 和 close 方法 。 其 中 ,initialize 方法 用 于 调 
用 RecordReader 对 象 时 进行 实例 化 ;nextKeyValue 方法 用 于 读 取 下 一 个 key/value Xf. 
读 取 成 功 后 返回 true;getCurrentKey 用 于 获取 当前 key 值 ,并 返回 当前 key 值 ,如 果 没 有 
key 值 , 则 返回 null; getCurrentValue 方法 用 于 获取 当前 的 value 值 ;getProgress 方法 用 
于 获取 当前 RecordReader 处 理 数 据 的 进度 ,并 返回 相应 的 进度 值 ;close 方法 用 于 关闭 
RecordReader。RecordReader 类 的 代码 内 容 如 下 。 


CED E 


552 Mp 


当 完 成 数据 读 操 作 之 后 ,就 要 将 分 片 后 的 数据 作为 Map 的 输入 ,进行 Map 阶段 。 例 
如 , 当 数 据 被 分 片 为 N 时 ,默认 会 给 N 个 Map 来 进行 处 理 。Map 阶段 需要 实现 Mapper 
接口 ,同时 继承 MapReduceBase, 最 后 再 编写 map 方法 ,其 原型 如 下 。 


Map 类 继承 了 MapReduceBase 类 ,并 实现 了 Mapper 接口 ,该 接口 是 一 个 规范 类 型 ， 
有 4 种 形式 的 参数 二 KEYIN, VALUEIN, KEYOUT. VALUEOUT 二 ,分别 用 来 指定 
map 的 输入 key 值 类 型 .输入 value 值 类 型 .输出 key 类 型 和 输出 value 值 类 型 。Mapper 
类 的 代码 内 容 如 下 。 


Mapper 类 提供 了 setupO .map() ,cleanupO HI run()4 个 方法 。 其 中 ,setup() 用 于 
执行 map 之 前 的 准备 工作 ,cleanup() 方 法 则 在 所 有 的 map 任务 完成 后 被 调用 ,这 两 个 方 
法 用 于 管理 Mapper 生命 周期 中 的 资源 ;map() 方 法 用 于 对 一 次 输入 的 key/value 对 进行 
map 操作 ;run() 方 法 用 于 执行 setup()-~run() 一 cleanup() 过 程 , 即 首先 调用 setup() 方 
法 ,然后 迭代 所 有 的 key/value 对 进行 map 操作 ,最 后 调用 cleanup() 方 法 。 

在 编写 Map 类 实现 Mapper 接口 类 时 ,必须 要 实现 map() 方 法 ,该 方法 根据 
二 Kl,V1 放 生成 二 K2,V2 放 ,最 后 通过 Context 输出 。 在 Hadoop MapReduce 中 已 经 预 
定义 了 几 种 Mapper 类 供用 户 使 用 ,如 表 5.2 所 示 。 


Q9.) sxsuxus 


表 5.2 MapReduce 中 预定 义 的 Mapper 列举 


类 说 RB 
IdentityMapper<K , V> 将 输入 的 <key,value> 原封 不 动 地 输出 为 中 间 结 果 
InverseMapper<K,V> 将 输入 一 key，value> map 为 输出 二 value, key 
RegexMapper<K> 为 每 一 个 匹配 的 正则 表达 式 生成 一 个 (match,1) 键 值 对 
TokenCountMapper K> 当 输入 值 被 标记 时 ,生成 一 个 (token,1) 键 值 对 
MultithreadedMapper<K , V> 多 线程 执行 map 方法 


注 : 具体 Mapper 实现 请 查看 org. apache. hadoop. maped. lib 和 org. apache. 
hadoop. mapreduce. lib. map 目录 下 相应 的 实现 类 。 读 者 可 根据 实际 需求 去 使 用 相应 的 
Mapper 类 。 


553 Combine/Partition 
Combiner 主要 负责 将 同一 个 map 中 相同 的 key 进行 合并 ,避免 重复 传输 ,从 而 减少 


传输 中 的 通信 开销 ;Partitioner 负责 将 map 产生 的 中 间 结 果 进 行 划分 ,确保 相同 的 key 
值 到 达 同 一 个 value. Combine/Partition 过 程 如 图 5. 17 所 示 。 
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5.17 Combine/Partition 过 程 
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Combine 过 程 其 实 也 是 一 种 Reduce 操作 ,是 Map 运算 的 后 续 操 作 , 在 MapReduce 
下 默认 Combine 过 程 的 实现 为 IdentityReducer 类 ,其 代码 内 容 如 下 。 


pblic class IdentityReducerc K, V» 
extends MacFeducePase implements Reducer« K, V, K, V» ( 


/** Writes all keys and values directly to output. * / 

public void reduce (K key, Iterator« V» values, OutputCollector« K, V» output, Reporter reporter) 
throws IOFxception ( 
while (values.hasNext ()) ( 

output.collect (key, values.next () ) ; 

) 

) 

) 


如 在 WordCount 项 目 中 对 文件 中 的 单词 频率 做 统计 ,在 Map 计算 时 如 果 统 计 到 A 
单词 就 会 记录 为 1 ,文件 中 该 A 单词 可 能 出 现 多 次 ,如 果 不 进 行 Combine 操作 ,可 能 会 导 
致 Map 输出 文件 元 余 。 因 此 ,在 Map 计算 出 中 间 文 件 前 对 相同 的 key 做 一 个 Combine 
操作 ,减少 了 中 间 文 件 输出 元 余 并 提高 了 宽带 的 传输 效率 。 对 于 Combine 过 程 ,并 不 是 
所 有 的 MapReduce 任务 都 需要 使 用 ,要 根据 实际 业务 情况 来 决定 。 

Partition 过 程 是 将 Map 的 运行 结果 发 送 到 相应 的 Reduce 中 。 在 设计 Partition 时 ， 
需要 充分 考虑 到 如 何 将 作业 均匀 分 配 到 不 同 的 Reduce 的 负载 均衡 问题 和 作业 分 配 速度 
的 效率 问题 。 用 户 可 以 通过 继承 Partitioner 接口 实现 自己 的 Partition 过 程 ,提高 负载 均 
衡 和 作业 分 配 效率 。Partitioner 接口 类 的 代码 内 容 如 下 。 


public interface Partitioner« K2, V2» extends Jc-Configurable { 


px 
* Get the paritition mmber for a given key (hence record)given the total 
* nunber of partitions i.e. number of reduce- tasks for the jœ. 
* 
* <p Typically a hash function cn a all or a subset of the key.« /p> 
int getPartition(K2 key, V2 value, int numPartitions); 

) 


Partitioner 中 需要 实现 getPartition ) 方 法 ,该 方法 返回 二 K2,V2 二 对 应 的 Reduce ID, 
如 果 用 户 没 有 提供 Partition. MapReduce 会 使 用 默认 的 HashPartitioner 类 ,另外 还 提供 了 
BinaryPartitioner 类 、KeyFieldBasedPartitioner 类 和 TotalOrderPartitioner 类 。 其 中 ， 
HashPartitioner 类 是 MapReduce 的 默认 Partition ,该 类 计算 当前 Reduce ID 的 方法 如 下 。 


(key-hashCode () & Integer. MIX. VALLE) SumReduceTasks 


BinaryPartitioner 类 继承 于 Partitioner 类 ,该 类 提供 了 leftOffset 和 rightOffset. 在 
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计算 当前 Reduce ID 的 方法 时 , 仅 对 键 值 K 的 [rightOffset, leftOffset ]3X 4- IX [8] t hash; 
KeyFieldBasedPartitioner 类 也 是 基于 hash 的 Partitioner ,与 BinaryPartitioner 不 同 之 处 
在 于 该 类 提供 了 多 个 区 间 用 于 计算 hash, 当 区 间 数 为 0 时 , 则 退化 成 HashPartitioner; 
TotalOrderPartitioner 类 不 同 于 以 上 三 个 Partitioner, 对 于 BinaryComparable 类 型 的 
Key, 采 用 字典 排序 法 查找 当前 的 Key 所 在 的 Reduce ID, X} FIE BinaryComparable 类 型 
的 Key, 则 采用 二 分 法 查找 当前 的 Key 所 在 的 Reduce ID, 

从 图 5. 17 中 可 以 看 出 ,MapReduce 还 要 经 过 Shuffle 和 Sort 等 一 系列 过 程 。 其 中 ， 
Shuffle 过 程 主要 负责 将 完成 的 Map 任务 的 中 间 输 出 结果 交换 到 相应 的 Reduce 中 ,并 对 
某 些 Map 任务 通过 阔 值 判断 来 决定 写 到 磁盘 还 是 直接 放 在 内 存 中 ,从 而 确保 Map 和 
Reduce 拥有 足够 的 内 存 空 间 ;MapReduce 采用 了 基于 Sort 的 策略 将 Key 值 相同 的 数据 
聚集 在 一 起 ,由 于 各 个 Map 任务 已 经 实现 了 对 自己 的 处 理 结果 进行 局 部 排序 ,Sort 过 程 
只 需 对 所 有 的 数据 进行 一 次 归并 排序 即 可 。 

注 : 感 兴趣 的 读者 ,可 以 查看 org. apache. hadoop. mapred. lib 目录 下 HashPartitioner 
类 、BinaryPartitioner X , KeyFieldBasedPartitioner 类 和 TotalOrderPartitioner 类 。 读 者 可 根 
据 实 际 需 求 去 使 用 相应 的 Partition 。 
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通过 Map 阶段 生成 的 中 间 文 件数 据 还 要 经 过 Reduce 阶段 ,从 而 产生 最 终结 果 数 据 
并 写 到 HDFS (à, Reduce 阶段 需要 实现 Reducer 接口 ,同时 继承 MapReduceBase, 最 后 
再 编写 reduce 方法 ,其 原型 如 下 。 


public class Feduce extends MapPednoePase 
implements Reducer« Text, IntWritable, Text, IntWritable^ ( 


public void reduce (Text key, Iterator« IntWritable» values, 
OutputCollector« Text, IntWritable» output, 
Reporter reporter)throws ICException { 


) 
) 


Reduce 类 以 Map 的 输出 作为 输入 ,并 继承 了 MapReduceBase 类 ,实现 了 Reducer 接 
OREST reduce() 方 法 。 其 中 ,Reducer 接口 类 有 4 种 形式 的 参数 二 K2, V2, K3, V3>, 
其 代码 内 容 如 下 。 


public interface Reducer« K2, V2, K3, V3» extends JobConfigurable, Clesesble( 


void reduce (K2 key, Iterator« V2» values,OutputCollector« K3, V3» output, Reporter reporter) 
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throws ICException; 


) 


Reducer 接收 从 Mapper 传递 而 来 的 key/value 对 ,然后 根据 key 来 排序 ,分 组 ,并 生 
J&—K2, list<V2>> ,最 后 Reducer 根据 二 K2, list V2 — "EJ -—K3. V3>. 在 
Hadoop MapReduce 中 已 经 预定 义 了 几 种 Reducer 类 供用 户 使 用 , 表 5.3 给 出 了 
MapReduce 中 预定 义 的 几 种 Reducer。 


表 5.3 MapReduce 中 预定 义 的 Reducer 列举 


类 


说 B 


IndentityReducerK , V> 


将 输入 的 一 key,value> 原封 不 动 地 输出 为 结果 


LongSumReducer <K> 


对 长 整 型 的 value 值 求 和 


IntSumReducer 


对 整 型 的 value 值 求 和 


ik: 具体 Mapper 实现 请 查看 org. apache. hadoop. maped. lib 和 org. apache. 
hadoop. mapreduce. lib. reduce 目录 下 相应 的 类 。 读 者 可 根据 实际 需求 去 使 用 相应 的 


Reducer 类 。 
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MapReduce 使 用 OutputFormat 类 将 数据 输出 并 存 人 文件 中 ,每 个 Reduce 将 它 的 输 
出 数据 直接 写 到 自己 的 文件 中 。 输 出 文件 存在 于 一 个 共有 目录 当中 ,一 般 被 命名 为 
“part-nnnnn”, 其 中 ,nnnnn 是 Reduce 的 分 区 ID, Hadoop MapReduce 框架 提供 了 几 种 
数据 的 输出 格式 可 供 选 择 ,如 表 5.4 所 示 为 MapReduce 几 种 比较 常用 的 输出 格式 。 


表 5.4 MapReduce 几 种 常用 的 输出 格式 


输出 分 类 输出 格式 说 B 
是 以 一 行 的 形式 进行 文件 写 和 人 ,Key 和 Value 可 
文本 输出 TextOutputFormat 以 是 任意 类 型 ,其 分 隔 符 默认 为 Tab 符 
SequenceFileOutputFormat 将 输出 写 人 到 一 个 顺序 文件 中 ,其 格式 紧凑 ,而 
且 数 据 可 以 被 压缩 
二 进 制 输出 | SequenceFileAsBinaryOutputFormat 22 对 当 作 二 进 制 写 人 到 一 个 顺序 文 
MapFileOutputFormat D Key/ Value 对 写 和 人 到 一 个 mapfile X 
Mulügle FextOutputFornat 将 结果 输出 到 多 个 文件 中 ,其 中 根据 Key/Value 
多 个 输出 对 进行 分 区 
MultipleSe FileOutputFormat 将 结果 输出 到 多 个 顺序 文件 中 ,其 中 根据 Key/ 
ultipleSequenceFileOutputForma Value 对 进行 分 区 
3 SEE 二 条 i w 
EPUM ERREUR EXER NDREER KI R AN 
数据 库 输 出 | DBOutputFormat 向 关系 型 数据 库 中 写 入 数据 的 一 种 格式 
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要 设置 MapReduce 应 用 程序 的 数据 输出 格式 ,需要 通过 OutputFormat 的 对 象 调 
setOutputFormatClass 设置 输入 数据 的 格式 ,最 后 设置 输入 目录 的 路 径 , 其 代码 如 1 
所 示 。 


conf.setOutputFormatClass (SequenceFileOutputFormat.class); 
FileOutputFormat.setOutputPath (conf, new Path()) ; 


OutputFormat 类 指定 输出 数据 的 格式 ,该 类 定义 了 三 个 方法 : getRecordWriter, 
checkOutputSpecs 和 getOutputCommitter 方法 。 其 中 ,getRecordWriter 方法 用 于 写 人 
输出 结果 ; checkOutputSpecs 方法 用 于 检查 结果 输出 的 存储 空间 是 否 有 效 ; 
getOutputCommitter 方法 用 于 任务 提交 。OutputFormat 类 的 代码 内 容 如 下 。 


public abstract class OutputFormat« K, V» { 


A 

* Get the (8 link RecordWriter) for the given task. 

*/ 

public abstract RecordWriter« K, V» 
getRecordariter (TaskAttemptOontext context)throws ICExoeption, 
InterruptedExoception; 


px 
* Check for validity of the output- specification for the jœ. 
*/ 
public abstract void checkOutput Specs (JabContext. context) throws IOException, InterruptedExcepticn; 


px 

* Get the output oamitter for this output format. This is 

* responsible for ensuring the output is ommitted correctly. 

Gu 

public abstract 

OutputCammitter ^ getOutputCcmmitter ( TaskAttemptContext context ) throws — ICExoepticn, 
InterruptedExoeption; 
} 


代码 中 的 RecordWriter 类 主要 负责 根据 存储 环境 的 需要 先 对 一 个 key/value 对 进行 
组 织 , 然 后 把 这 个 组 织 好 的 key/value 存储 到 某 个 存储 环境 中 ,每 一 行 中 的 key 和 value 
是 通过 分 隔 符 Tab 来 区 别 的 。RecordWriter 类 的 代码 内 容 如 下 。 


fe 


* Writes a key/value pair. 


OutputCommitter 类 主要 负责 对 任务 的 输出 进行 管理 ,代码 内 容 如 下 。 
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U 
} 


EE. 感 兴趣 的 读者 可 以 查看 OutputCommitter 类 的 具体 实现 类 FileOutputCommitter, 理 
解 应 该 如 何 根 据 自己 的 实际 情况 来 定义 对 任务 的 输出 管理 。 


5.6 MapReduce 开发 实例 


在 Eclipse 中 开发 MapReduce 应 用 程序 ,便于 开发 者 编辑 和 编译 MapReduce 应 用 程 


序 , 并 对 程序 进行 单元 测试 ,作业 调 优 .运行 调试 等 。 下 面 将 重点 介绍 WordCount 项 目 实 
例 ,以 便 让 读者 更 深刻 地 理解 如 何在 Eclipse 中 开发 MapReduce 应 用 程序 。 
561 MepReduce 编程 


通过 MapReduce 编程 实现 对 HDFS 上 指定 文件 目录 中 所 有 文本 中 单词 出 现 的 次 
数 , 即 WordCount 项 目 。 因 为 有 多 个 文件 ,可 以 并 行 地 统计 每 个 文本 中 单词 出 现 的 个 数 ， 
最 后 进行 合并 计算 , 即 MapReduce 编程 。MapReduce 应 用 程序 编程 的 关键 步骤 如 下 。 


1. 编写 WordCount 类 


首先 ,新 建 一 个 MapReduce 工程 (创建 过 程 请 参考 5. 4. 2 节 ), 并 新 建 一 个 
WordCount 类 。 在 WordCount 类 中 要 实现 Mapper 接口 (编写 Map 类 ) 和 Reducer 接口 
(编写 Reduce 类 ) ,并 进行 Job 的 配置 ,代码 内 容 如 下 。 


package org.apache.hadoop.mapred; /wbrdcount 类 所 在 的 包 结 构 


// 下 面 引入 的 几 个 类 是 Java 中 经 常用 到 的 ,不 是 Badocop 特 有 
inport java.io.ICException; 

inport java.util.ArrayList; 

inport java.util.Iterator; 

inport java.util.StringTokenizer; 


// 下 面 引 入 的 类 全 部 是 Edoop 中 特有 的 


ipat ay.arade .hacbop.aonf.Configmaticny // 配 置信 息 
inport org.apache.hadoop.conf.Configuredy // 配 置信 息 
inport org.apache.hadoop.fs.Path; // 用 于 将 路 径 转换 为 标准 的 UEL 格 式 
inport org.apache.hadoop.io.IntWritable; /数据 类 型 
inport org.apache.hadoop.io.Iengaritable; /数据 类 型 
inport org.apache.hadoop.io.Text; /数据 类 型 


inport org.apache.hadoop.mapred.Fi leTrputFormat.; 
// 用 于 文件 分 割 及 < key, valu E R 


C» 深入 浅 出 大 数据 


inport org.apache.hadoop.mapred. Fi leOutputFormat; 


// 规 定 了 输出 结果 的 格式 
dnport orj.apache.hacogp.mepred. Cent; // 用 于 提交 xb 
inport org.apache.hadoop.mpred. JabConf ; // 用 于 配置 Tb 
inport org.apache.hadoop.mapred.MapReduoeBase; 

/Asp 和 Reduce 类 都 要 继承 的 基 类 
inport org.apache.hadogp.mapred.Mapper; /Mep 类 需要 实现 的 接口 
import org.apache.hadpop.mapred.OutputCollector; 

// 用 于 生成 Mp/Reduce 的 输出 结果 
inport org.apache .hadoop .mapred.Reduoer; //Reduce 类 需要 实现 的 接口 
inport org.apache .hadoop.mapred.Reporter; // 用 于 向 Jaamracker 报 告 任 务 执行 情况 
inport org.apache.hadoop.util.Tool ; //'1o01 接口 类 
inport org.apache.hadocp.util.ToolRunner; // 用 于 调用 rm () 方 法 


public class Wordoount extends Configured implements Tool ( 
/实现 Mapper $k O 
/实现 Feducer 接 口 
//Jcb 配 置 
public static void min (String[] args)throws Exception { 
//MapReduce 程序 运 行 


2. 实现 Mapper 接口 


在 WordCount 类 中 编写 Map 类 ,该 类 实现 Mapper 接口 ,并 规定 如 何 将 输入 的 
一 key,value 二 对 转化 为 中 间 结 果 的 一 key， list of values 二 对 ,Map 类 的 代码 内 容 如 下 。 


// 编 写 Mp 静态 内 部 类 ,类 名 为 Map,H Á MaEReducsBase, 并 实现 Mapper $k O 
public static class Map extends MarFeduoeBase. 
implements Mapper< Longaritable, Text, Text, IntWritable» { 


private final static IntWritable ane- new IntWritable (1); 
//one 为 Mp 输出 的 value 
private Text word- new Text () ; // 拆 分 出 的 每 个 word 作 为 Mp 输出 的 key 
Pblic void map (Longwritable key, Text value, 
OutputCollector« Text, IntWritable» output, 
Reporter reporter)throws IOExoeption { 
String line- value.tcString() ; // 将 value fk Jy. Java ff] String Jib 3E 
StringIokenizer itr- new StringIokenizer (line); 
//itr 用 于 拆 分 字符 串 
while (itr.hasMoreTokens ()) { 
word.set (itr.nextToken()); 
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output.collect (word, ane) ; //output 收集 生成 的 中 间 结 果 <word,one> 


3. 实现 Reducer 接口 


在 WordCount 类 中 编写 Reduce 类 ,该 类 实现 Reducer 接口 ,并 规定 如 何 对 Map 输 
出 的 中 间 结 果 二 key, list of values 二 进一步 处 理 , 转 化 为 最 终 的 结果 输出 二 key,value 二 
对 ,Reduce 类 的 代码 内 容 如 下 。 


/| 编写 Reduce 内 部 类 ,类 名 为 Reduce, 继 承 自 MapReducsBase, 并 实现 Reducer $k O 
public static class Reduce extends MacReduceBase. 
implements Reducer« Text, IntWritable, Text, IntWritable» { 


public void reduce (Text key, Iterator« IntWritable» values, 
Reporter reporter)throws ICExoeption ( 
int sum- 0; 
while (values.hasNext ()) ( 
smt = values.next () .get () ; // 对 key 相 同 的 所 有 value iE fT 22 Jill 
) 
output.collect (key, new IntWritable (sum) ) ; 
//cutput 收集 输出 结果 


4. 配置 作业 


所 有 的 MapReduce 作业 都 需要 有 一 个 JobConf 对 象 来 配置 实际 的 MapReduce 任务 
和 提交 MapReduce 任务 。 有 关 JobConf 类 所 提供 的 成 员 人 参数 和 方法 请 查看 Hadoop API 
中 的 org. apache. hadoop. mapred. JobConf。 本 实例 在 WordCount 类 中 定义 一 个 公有 的 
run() 方 法 ,用 于 Job 的 配置 和 提交 ,代码 内 容 如 下 。 


public int run(String[] args)throws Exception { 


Jrboonf anf= ne Onf GetOnfQ, WorcDait. class) ; // 设 置 Ib 所 在 的 主 类 
conf.setJbName ("wordoount") ; // 设 置 Tb 名 

// 设 置 xb 输出 结果 <Jey'valne> 中 的 key fll value 数 据 类 型 

conf.setOutputKeYClass (Text .class) ; //key 为 Text Bl 
conf.setoutputValueClass (IntWritable.class); //value 为 IntWritable #J 
conf.setMapperClass (Mep.class) ; // 设 置 完成 Map 任 务 的 类 


conf .setOmbinerClass (Reduoe.class); // 设 置 完 成 cmbine 任 务 的 类 
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conf .setRechioerClass (Reduce .class) ; // 设 置 完成 Feduce 任 务 的 类 
// 设 置 输入 数据 所 在 的 HES 的 路 径 
FilemputFormat.setInputPaths(oonf, other args.get (0)) ; 


// 设 置 输出 结果 保存 在 HOES 的 路 径 
FileOitputFormat .setOutputPath(conf, new Path (other args.get (1))) 7 
JcbClient.runJob (conf) ; // 提 交 Job 


5. 代码 测试 


HS é MapReduce 应 用 程序 后 ,就 需要 对 代码 进行 单元 测试 , 当 map 和 reduce 功能 


正确 后 ,再 在 小 规模 集群 上 对 MapReduce 进行 集成 测试 ,测试 成 功 后 就 可 以 在 Hadoop 
集群 上 运行 。 有关 MapReduce 的 测试 ,可 使 用 MRUnit 进行 单元 测试 和 集成 测试 ,如 用 
MapDriver 单元 测试 Map、 用 ReduceDriver 单元 测试 Reduce、 用 MapReudceDriver 集成 
测试 MapReduce 作业 .用 PiplineMapReduceDriver 多 MapReduce 组 合 的 集成 测试 (有 关 
MRUnit 的 细节 请 查看 http://mrunit. apache. org/)。 使 用 MRUint 对 Map 功能 的 单元 
测试 如 下 所 示 。 


public class WordcountMapper Test. ( 


) 


private Map map; 
private MepDriver driver; 


@ Before 
Pblic void init () ( 
map= new WordCountMap () ; 
driver- new MapDriver (map) ; 
) 


@ Test. 

Public void test () throws IOException ( 
String line- "Hello Hadoop"; 
driver.withInput (null, new Text (line) ) 
-withOutput (new Text ("Hello"), new IntWritable(1)) 
-withOutput (new Text ("Hadoop"), new IntWritable(1)) 
.runTest (); 


假定 Map 输入 内 容 为 “Hello Hadoop”, 通 过 MapDriver 的 withInput 和 withOutput 
组 织 Map 的 输入 键 值 和 期 待 的 输出 键 值 ,并 通过 runTest() 方 法 运行 作业 ,测试 map 功 
能 。 同 理 ,测试 Reduce 功能 同 Map 功能 相同 ,其 测试 代码 内 容 如 下 。 


这 里 假设 Reduce 输入 为 二 Hadoop,6 二 , 则 期 待 Reduce 的 输出 结果 应 该 为 
所 Hadoop,6 二 。 如 果 结 果 一 致 , 则 测试 运行 通过 ;如 果 结 果 不 一 致 ,请 重新 修改 reduce O 
方法 。 当 Map 和 Reduce 功能 都 测试 通过 后 ,可 以 使 用 MapReduceDriver 对 MapReduce 
作业 进行 集成 测试 ,测试 代码 如 下 。 
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通过 MapReduceDriver 的 withInput 构造 Map 的 输入 键 值 ,通过 withOutput 构造 
Reduce 的 输出 键 值 ,来 测试 字数 统计 功能 。 单 元 测试 和 集成 测试 对 程序 开发 是 至 关 重 要 


-withOutput (new Text ("Hello") ,new IntWritable 1) ) 
-withOutput (new Text ("Hadoop") ,new IntWritable(1)) 
-runTest () ; 


的 ,可 以 很 快 地 发 现 并 定位 问题 ,从 而 保证 了 代码 质量 。 
6. 打包 发 布 


编写 完 MapReduce 程序 并 进行 测试 通过 后 ,下 一 步 就 要 对 MapReduce 程序 进行 打 


包 和 集群 运行 。MapReduce 程序 的 打包 过 程 如 下 。 


在 Eclipse 的 IDE 中 ,选择 File Export... fi 4 ,会 出 现 导 出 资源 选项 卡 , 如 图 5. 18 


所 示 。 


Export 


Select 


Export resources into a JAR file on the local file system [s] 


Select an export destination: 


type filter text 


> © General 
上 © Install 


” @> Java 选择 "JAR file" 


Ê Javadoc 


«Ñ Runnable JAR file 
? © Run/Debug 
Lb Gs Taske 


y, fü Noticia 


图 5.18 导出 资源 选项 卡 


单 击 Next 按钮 之 后 ,出 现 如 图 5. 19 所 示 的 选项 卡 。 


在 如 图 5. 19 所 示 的 选项 卡 中 ,可 以 单 击 Next 按钮 或 Finish 按钮 直接 完成 ,生成 名 
为 WordCount. jar 的 文件 , 即 MapReduce 应 用 程序 。 最 后 ,将 WordCount. jar 文件 在 


Hadoop 集群 上 运行 即 可 ,运行 命令 如 下 。 
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JAR Export 
JAR File Specification 


P 
Define which resources should be exported into the JAR. x " 


V. Export generated class files and resources 
M Export all output folders for checked projects 
M Export Java source files and resources 


门 Export refactorings for checked projects. Sele 


Select the export des: 


Options: 
f Compress the contents of the JAR file 
M Add directory entries 


门 Overwrite existing files without warning 


单 击 Next HI 
@ < Back Cancel. Finish 


图 5.19 JAR 导出 选项 卡 


// 由 于 声明 了 package ,所 以 在 命令 中 要 将 org.apache.hadbop.mapred 写 完整 

//input 为 in A in2 文 件 所 在 的 目录 

//outpat 为 MapReduce 输 出 结果 

[hadoopl masterl dfs]$ hadocp jar /hame/hadoop/Wordcount.jar — org.apache.hadoop.mapred.WordOount / 
input /output 


正确 输出 的 内 容 如 下 。 


15/03/05 01:15:56 INFO client.RMProxy: Connecting to ResourosManager at /0.0.0.0:8032 

15/03/05 01:15:57 INFO client.RMProxy: Connecting to ResourosManager at /0.0.0.0:8032 

15/03/05 01:15:59 INFO mapred.FileInputFormat: Total input paths to process : 2 

15/03/05 01:15:59 INFO mapreduce.JdbSubmitter: mmber of splits:2 

15/03/05 01:16:00 INEO mapreduce.JobSumitter: Submitting tokens for jab: jdb 1425536083584 0001 
15/03/05 01:16:01 INEO impl.YarnClientImpl: Sumitted application application 1425536083584 0001 
15/03/05 01:16:01 INFO mapreduce.Jdb: The url to track the jdb: http://masterl.hadocp: 8088/proxy/ 
application 1425536083584 0001/ 


MapReduce 程序 运行 成 功 后 ,可 以 通过 以 下 命令 查看 运行 结果 。 


也 可 以 在 Web UI 界面 中 查看 所 提交 的 作业 执行 情况 信息 (http://masterl. 
hadoop:8088) ,展现 了 每 个 Job 使 用 的 Map/Reduce 的 数量 、 作 业 提 交 时 间 、 作 业 启 动 时 
间 、 作 业 完 成 时 间 、Job ID、 提交 人 User、 队 列 等 信息 ,如 图 5. 20 所 示 。 


562 实例 解析 


在 编写 MapReduce 应 用 程序 时 ,如 果 不 理解 MapReduce 作业 的 运行 机 制 ,开发 者 将 
无 法 认识 和 开发 MapReduce 程序 。 下 面 通过 上 面 的 WordCount 实例 来 介绍 MapReduce 
作业 的 处 理 过 程 ,如 图 5. 21 所 示 。 
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1. 输入 数据 


将 inl 和 in2 文件 上 传 到 HDFS 中 的 input 目录 下 ,作为 MapReduce 应 用 程序 的 输 
入 数据 ,如 图 5. 21(a) 所 示 。 其 中 ,这 两 个 文件 的 内 容 如 下 。 


tinl 
Hello World 
Hello Hadoop 


din? 
Bye World 
Bye Hadoop. 


2. 文件 分 割 


把 输入 的 inl 和 in2 文件 通过 InputFormat 类 切 分 成 多 个 splits。 由 于 测试 用 的 inl 
和 in2 文件 较 小 ,所 以 一 个 文件 为 一 个 split ,并 通过 LineRecorderReader 将 其 中 的 每 一 行 
解析 成 二 key,value 过 对 作为 Map 的 输入 ,如 图 5. 21(b) 所 示 。 其 中 ,key 为 该 行 在 文本 
中 的 偏 移 量 ,value 值 为 这 一 行 的 内 容 。 经 过 InputFormat 类 处 理 之 后 ,inl 文件 和 in2 X 
件 分 别 形 成 了 两 个 二 key,value 二 对。 如 在 inl 文件 中 ,第 一 对 中 key 值 为 0, 是 因为 
“Hello* 单 词 位 于 文件 头 ;第 二 对 中 key 值 为 12 ,是 因为 下 一 行 的 首 单词 “Hello”" 相 对 整个 
文本 处 于 第 12 的 位 置 。 


3. Map 处 理 


将 分 割 好 的 二 key,value 二 对 作为 map() 方 法 的 输入 ,然后 由 用 户 定义 的 map() 方 法 
进行 Map 处 理 , 生 成 新 的 二 key,value 二 对 ,而 且 Map 端 会 将 这 些 结果 按照 Key 值 进行 
分 组 ,如 图 5. 21(c) 所 示 map() 方 法 的 输出 结果 。 


4. Combine 过 程 


得 到 map() 方 法 输出 的 二 key,value 二 对 之 后 ,执行 Combine 过 程 ,合并 中 间 结 果 具 
有 相同 key 值 的 键 值 ,得 到 Map 端的 最 终 输出 结果 ,如 图 5. 21(d) 所 示 。 


5. Reduce 处 理 


首先 ,Reduce 端 接收 到 来 自 Map 端的 数据 后 ,对 数据 进行 排序 ,如 图 5. 21(e) 所 示 。 
然后 ,再 交 由 用 户 自 定义 的 reduce() 方 法 进行 处 理 , 得 到 新 的 二 key, value > XT. fE 2g 
WordCount 的 输出 结果 ,如 图 5. 21(f) 所 示 。 

到 此 ,MapReduce 的 WordCount 实例 的 基本 过 程 已 经 解析 完成 ,请 读者 通过 该 实例 
深入 理解 MapReduce, 达 到 触 类 旁 通 为 止 。 
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资源 管理 框架 YARN. rr < 


资源 管理 框架 YARN( Yet Another Resource Negptiator) 中 是 Hadoop 20 生 态 系统 中 新 引入 的 
Hadoop 统一 资源 管理 系统 ,是 为 了 实现 Hedooo 集群 共享 .可 伸缩 性 和 可 靠 性 而 设计 的 。 该 杠 
架 采 用 了 一 种 分 层 的 集群 框架 思想 ,将 集群 资源 管理 与 数据 处 理 分 离 , 并 具有 一 定 的 通用 
性 。 本 章 将 重点 介绍 YN 的 产生 背景 ,体系 构架 ,以 及 运行 在 YN 上 的 计算 框架 等 内 容 。 


6.1 YARN 概述 


最 初 的 Hadoop 1. 0 生态 系统 的 主要 设计 目的 是 处 理 和 分 析 海 量 的 日 志 数据 和 其 他 
结构 化 数据 。 因 此 ,Hadoop 1. 0 生态 系统 的 应 用 场景 主要 是 针对 大 规模 的 数据 密集 型 

计算 ,其 应 用 场景 比较 单一 , 仅 支 持 MapReduce 的 批 处 理 计算 方式 ,这 种 单一 的 
MapReduce 编程 模型 限制 了 开发 者 在 多 种 场景 下 的 海量 数据 处 理 和 应 用 。 而 且 ， 
Hadoop 1. 0 生态 系统 采用 了 一 种 紧 耦 合 的 资源 管理 方式 , 即 MapReduce 编程 模型 和 资 
源 管理 的 紧 耦 合 ,迫使 开发 者 滥用 了 MapReduce 编程 模型 ,并且 中 心 化 的 作业 控制 流 也 
影响 了 系统 的 可 拓展 性 。 随 着 Hadoop 集群 的 规模 越 来 越 大 ,数据 量 逐 日 剧 增 ,作业 的 数 
量 也 显著 增加 ,对 Hadoop 的 可 拓展 性 提出 了 更 高 的 要 求 。 

Hortonworks 的 创始 人 兼 架构 师 Arun Murthy 基于 上 述 的 Hadoop 设计 缺陷 和 日 
益 增长 的 业务 需求 开始 重新 设计 了 Hadoop 架构 , 即 Hadoop 2. 0 架构 。Hadoop 2.0 Æ 
态 系统 中 的 YARN 架构 是 在 MapReduce(MRv1) 基 础 上 演化 而 来 的 ,YARN 的 最 初 设计 
是 为 了 修复 MapReduce(MRv1) 中 的 各 种 局 限 性 ,并 对 可 伸缩 性 、 可 靠 性 和 和 集群 利用 率 进 
行 了 提升 。YARN 修复 了 MapReduce(MRv1) 中 的 局 限 性 ,主要 体现 在 以 下 几 点 。 

CD 可 扩展 性 。YARN 提高 了 MRv1 的 可 扩展 性 。Hadoop 1. 0 架构 受到 了 JobTracker 
的 高 度 约束 ,JobTracker 同时 负责 资源 管理 和 作业 控制 两 个 功能 ;新 的 YARN 架构 打破 了 
这 种 约束 ,把 JobTracker 的 两 个 功能 分 成 了 两 个 独立 的 服务 程序 , 即 全 局 的 资源 管理 
( ResourceManager ) 和 针对 每 个 应 用 的 应 用 Master (ApplicationMaster)。 其 中 ， 
ResourceManager 承担 了 MRvl 中 TaskTracker 的 一 些 角色 ;ResourceManager 承担 了 MRv1 
中 JobTiacker 的 角色 。 同 时 ,YARN 框架 支持 不 同 的 编程 模型 ,如 Spark Storm, Tez 等 。 

(2) 可 靠 性 。Hadoop 1. 0 生态 系统 主要 由 MapReduce( MRv1) fll HDFS 组 成 ,这 两 
个 组 件 的 设计 缺陷 是 单 点 故障 , 即 MRv1 的 JobTracker 和 HDFS 的 NameNode 两 个 核 
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心服 务 均 存在 单 点 故障 。Hadoop 2. 0 生态 系统 中 引入 了 YARN 作为 资源 管理 系统 ,使 
得 Hadoop 不 再 局 限于 MapReduce 计算 ,而且 支持 多 样 化 的 计算 框架 ,提高 了 计算 能 力 
的 可 靠 性 。 虽 然 YARN 也 存在 单 点 故障 5 (主要 是 ResourceManager 单 点 故障 ), 但 是 
由 于 每 个 作业 独立 使 用 一 个 作业 跟踪 器 (ApplicationMaster) ,彼此 互 不 影响 , 当 备 用 
ResourceManager 启动 后 ,会 从 共享 存储 系统 中 重新 读 取 这 些 Application 的 元 数据 信 
息 ,并 重新 提交 这 些 Application。 因 此 ,解决 YARN 的 单 点 故障 要 比 Hadoop 1. 0 生态 
系统 中 NameNode 和 HDFS 的 单 点 故障 容易 得 多 ,并 且 可 靠 性 更 高 。 

(3) 资源 利用 率 。Hadoop 1. 0 生态 系统 中 的 资源 管理 由 资源 表示 模型 和 资源 分 配 
模型 组 成 ,并 采用 了 基于 槽 位 (Slot) 的 粗 粒度 资源 划分 单位 组 织 各 节点 上 的 资源 (CPU、 
内 存 、 磁 盘 空 间 等 资源 ) 。 这 种 基于 槽 位 的 资源 划分 粒度 过 于 粗糙 ,往往 会 造成 节点 资源 
利用 率 过 高 或 过 低 ,而 且 资源 之 间 是 采用 JVM 的 隔离 机 制 , 这 种 资源 隔离 机 制 无 法 实现 
真正 的 资源 隔离 ,会 造成 同一 个 节点 上 任务 之 间 干 扰 严 重 ,影响 资源 利用 率 。 而 YARN 
中 的 资源 管理 是 由 ResourceManager 和 NodeManager 共同 完成 的 。 其 中 ， 
ResourceManager 中 的 调度 器 负责 资源 的 分 配 ; NodeManager 则 负责 资源 的 供给 和 隔 
离 。ResourceManager 的 资源 分 配 不 再 基于 槽 位 (Slot) 的 粗 粒度 划分 ,而 是 让 任务 直接 
向 调度 器 申请 自己 所 需要 的 资源 ,提高 了 资源 利用 率 ;NodeManager 按照 需求 为 任务 提 
供 相应 的 资源 ,并 保证 这 些 资源 的 独占 性 ,为 任务 运行 提供 基本 保证 。 

(4) 支持 多 种 计算 框架 。 在 Hadoop 1. 0 生态 系统 中 ,只 有 一 种 计算 框架 , 即 
MapReduce( MRv1) ,无 法 满足 多 场景 应 用 的 需求 。 在 Hadoop 2.0 生态 系统 中 的 YARN 
支持 多 种 计算 框架 , 除 支持 默认 的 MapReduce(MRv2) 计 算 框架 外 ,还 支持 内 存 计 算 框 架 
Spark. 流 式 计 算 框 架 Storm, DAG 计算 框架 Tez 等 。 

总 之 ,YARN 是 一 种 通用 的 Hadoop 资源 管理 框架 ,犹如 Hadoop 的 “操作 系统 ”。 该 
框架 不 仅 支持 离线 的 数据 处 理 (MapReduce) ,还 支持 如 实时 数据 处 理 (Spark)、 流 式 数 据 
处 理 (Storm) ,图 数据 处 理 (Tez) 等 计算 框架 。 随 着 YARN 的 不 断 成 熟 和 稳定 ,各 类 应 用 
程序 将 运行 在 一 个 以 YARN 为 核心 的 集群 中 进行 统一 资源 管理 和 调度 ,从 而 使 得 应 用 程 
序 和 服务 部 署 将 更 加 简单 ,更 有 效 地 进行 集群 资源 管理 和 隔离 等 。 


6.2 YARN 体系 架构 


YARN 是 Hadoop 2.0 生态 系统 中 新 引入 的 资源 管理 框架 ,总 体 上 仍 是 Master/ 
Slave 结构 , 该 框架 主要 由 ResourceManager, NodeManager, ApplicationMaster 和 
Container 组 件 构成 ,如 图 6. 1 所 示 。 

其 中 ,ResourceManager 相当 于 Master, 主 要 负责 对 各 个 NodeManager 上 的 资源 进 
行 统一 管理 .调度 和 状态 监控 ;NodeManager 相当 于 Slave. 主要 负责 每 个 节点 上 的 资源 
管理 ,任务 执行 心跳 上 报 等 ;每 个 应 用 有 一 个 ApplicationMaster, 主要 负责 应 用 程序 的 
申请 资源 、 监 控 任 务 运行 和 容错 等 ;Container 是 对 任务 运行 环境 的 抽象 。 
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图 6.1 YARN 基本 架构 
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ResourceManager( fij fk RM): YARN 的 Master, 具 有 中 心 化 的 全 局 资源 视图 , 主 
要 负责 集群 中 所 有 资源 的 统一 管理 和 分 配 , 它 接收 来 自 各 个 NodeManger 的 资源 汇报 信 
息 , 并 进行 相应 的 任务 调度 、 资 源 管理 和 状态 监控 。ResourceManager 根据 不 同 的 应 用 需 
求 ,调度 优先 级 和 资源 情况 等 ,动态 调整 资源 。ResourceMangert 中 的 主要 组 成 如 图 6. 2 
所 示 。 

从 图 6.2 中 可 以 看 出 ,ResourceManager 主要 提供 了 用 户 交互 管理 .ApplicationMaster 
管理 .NodeManager $F Application 管理 ,资源 分 配 管理 ,安全 管理 等 功能 。 


1. 用 户 交 互 管理 


ResourceManager 分 别针 对 不 同 的 用 户 ,实现 了 对 外 提供 不 同 的 服务 管理 ,如 对 于 普 
通用 户 和 管理 员 用 户 分 别 对 应 ClientRMService 和 AdminService。 

1) ClientRMService 

Client RMService 是 为 普通 用 户 提供 的 服务 , 它 会 处 理 来 自 客户 端的 各 种 RPC 请 求 ， 
如 提交 应 用 程序 .终止 应 用 程序 .获取 应 用 程序 运行 状态 等 。 如 果 需 要 了 解 该 类 的 具体 实 
现 功能 ,可 以 查看 Hadoop 源码 (以 Hadoop 2. 6. 0 为 例 ) 目录 下 的 hadoop-yarn-server- 
resourcemanager 工程 中 的 org. apache. hadoop. yarn. server. resourcemanager. 
ClientRMService 类 , 

2) AdminService 

AdminService 是 为 防止 大 量 普通 用 户 请 求 使 用 管理 员 权限 而 专门 为 管理 员 提 供 的 
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6.2 ResourceManager 基本 组 成 
(图 片 来 源 : http://hortonworks. com/blog/apache-hadoop-yarn-resourcemanager/) 


一 套 独 立 的 服务 接口 。 管 理 员 可 通过 该 接口 实现 Hadoop 集群 的 管理 ,如 动态 更 新 节点 
列表 ,更 新 ACL 列表 、 更 新 队列 信息 等 。 如 果 需 要 了 解 该 类 的 具体 实现 功能 ,可 以 查看 
Hadoop 源码 (以 Hadoop 2. 6. 0 为 例 ) 目 录 下 的 hadoop-yarn-server-resourcemanager 工 


程 中 的 org. apache. hadoop. yarn. server. resourcemanager. AdminService 类 。 
2. ApplicationMaster 管理 


ApplicationMaster 的 管理 主要 是 通过 ResourceManager 内 部 的 三 个 组 件 来 完成 的 ， 
即 AMLivelinessMonitor、ApplicationMasterLauncher 和  ApplicationMasterService 
组 件 。 

1) AMLivelinessMonitor 

AMLivelinessMonitor 主要 用 来 监控 ApplicationMaster 是 否 存活 ,周期 性 地 遍历 集 
群 中 的 所 有 ApplicationMaster, 如 果 一 个 ApplicationMaster 在 一 定时 间 内 (默认 为 
10min ,可 以 通过 参数 yarn. am. liveness-monitor. expiry-interval-ms 配置 ) 未 汇报 心跳 信 
息 , 则 认为 该 ApplicationMaster 已 无 心跳 ,并 把 该 ApplicationMaster 上 所 有 正在 运行 的 
Container 置 为 失败 并 释放 资源 ,ApplicationMaster 会 重新 为 它 申 请 资源 ,并 且 会 重新 分 
配 到 另外 节点 上 启动 它 (ApplicationMaster 启动 尝试 次 数 由 参数 yarn. resourcemanager. 
am. max-attempts 控制 ,默认 为 2) 。 

2) ApplicationMasterLauncher 

ApplicationMasterLauncher 是 以 线程 池 方 式 实现 的 一 个 事件 处 理 器 ,主要 处 理 
AMLauncherEvent 类 型 的 事件 ,包括 启动 (LAUNCH) 和 清除 (CLEANUP) 一 个 
ApplicationMaster 的 事件 。 当 接收 到 LAUNCH 类 型 的 事件 时 ,ApplicationMasterLauncher 
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会 与 对 应 的 NodeManager 进行 通信 ,并 启动 该 ApplicationMaster 所 需要 的 如 启动 命令 JAR 
包 \ 环 境 变 量 等 信息 ,并 启动 ApplicationMaster; 当 接收 到 CLEANUP 类 型 事件 时 ， 
ApplicationMasterLauncher 会 立刻 与 对 应 的 NodeManager 进行 通信 ,从 而 要 求 NodeManager 
杀 死 该 ApplicationMaster, 并 释放 资源 。 

3) ApplicationMasterService 

ApplicationMasterService 主要 负责 处 理 来 自 ApplicationMaster 的 心跳 请 求 和 
Application 的 注册 与 清理 请 求 。ApplicationMasterService 处 理 ApplicationMaster 的 心 
跳 请 求 是 周期 性 行为 ,ApplicationMaster 向 ApplicationMasterService 发 送 心跳 请 求 包 ， 
包括 请 求 资源 类 型 的 描述 、 待 释放 的 Container 列表 等 ,ApplicationMasterService 处 理 心 
跳 后 的 应 答 信 息 包括 新 分 配 的 Container、 失 败 的 Container 等 信息 。Application- 
MasterService 处 理 注册 请 求 是 在 Application 启动 完成 后 发 生 的 ,其 中 注册 请 求 信息 包 
括 ApplicationMaster 所 在 的 节点 、RPC 端口 、Tracking URL 等 信息 ;而 清理 请 求 是 在 
ApplicationMaster 运行 结束 后 发 生 的 ,主要 是 回收 释放 资源 。 


3. NodeManager 管理 


NodeManager 的 管理 主要 是 通过 ResourceManager 内 部 的 三 个 组 件 来 完成 的 , 即 
NMLivelinessMonitor, ResourceTrackerService 和 NodeListManager 组 件 。 

1) NMLivelinessMonitor 

NMLivelinessMonitor 功能 同 AMLivelinessMonitor. 只 不 过 AMLivelinessMonitor 
用 来 监控 ApplicationMaster, 而 NMLivelinessMonitor 是 用 来 监控 NodeManager. 5 
外 ,该 服务 会 周期 性 地 遍历 集群 中 NodeManager 的 时 间 默 认为 10 ,可 以 通过 参数 yarn. 
nm. liveness-monitor. expiry-interval-ms 配置 。 

2) ResourceTrackerService 

ResourceTrackerService 是 RPC 协议 ResourceTracker 的 一 个 实现 , 它 作 为 一 个 
RPC Server 端 接收 NodeManager 的 RPC 请 求 ,主要 功能 是 注册 NodeManager 和 处 理 心 
跳 信息 。 

3) NodeList Manager 

NodeListManager 主要 负责 白 名 单 (exclude 列表 ) 和 黑 名 单 (include 列表 ) 的 管理 功能 。 
其 中 , 白 名 单 和 黑 名 单 可 以 通过 yarnresourcemanager. nodes. include-path 和 
yarnresourcemanagernodes. exclude-path 来 指定 。 黑 名 单列 表 中 的 NodeManager 不 能 和 
ResourceManager 直接 通信 ,而 白 名 单列 表 中 的 NodeManager 可 以 和 ResourceManager 直接 
通信 。 

4. Application 管理 


Application 的 管理 主要 是 通过 ResourceManager 内 部 的 三 个 组 件 来 完成 的 , 即 
ApplicationACLsManager .RMAppManager 和 ContainerAllocationExpirer 组 件 。 

1) ApplicationACLsManager 

ApplicationACLsManager 主要 用 于 维护 每 个 Application 的 ACLs 列表 , 即 管理 
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Application 的 查看 和 修改 权限 。 其 中 ,查看 主要 是 指 查看 Application 基本 信息 ,而 修改 
主要 是 修改 Application 的 优先 级 、 杀 死 Application 等 。 

2) RMAppManager 

RMAppManager 在 ResourceManager 中 的 作用 是 管理 所 有 的 Application, 如 提交 、 
完成 Application ,恢复 一 组 Applications 等 。 

3) ContainerAllocationExpirer 

ContainerAllocationExpirer 主要 负责 保证 所 有 分 配给 ApplicationMaster 的 
Container 都 会 被 相应 的 NodeManager 启动 起 来 ,从 而 提高 整个 集群 的 利用 率 。 


5. 资源 分 配 管理 


ResourceManager 的 资源 分 配 管理 主要 由 YarnScheduler 来 完成 , YarnScheduler 是 
基于 Application 资源 需求 的 分 配 策略 ,将 资源 分 配给 正在 运行 的 Application, 4H CPU, 
内 存 、 网 络 、 磁 盘 等 。 在 Hadoop 1. 0 生态 系统 中 ,YarnScheduler 默认 的 资源 分 配 策略 是 
FIFO 实现 的 (FIFO Scheduler) ,但 还 可 以 使 用 其 他 的 资源 分 配 策略 ,如 Fair Scheduler 
和 Capacity Scheduler( Hadoop 2. 0 生态 系统 中 YarnScheduler 的 默认 实现 方式 )。 这 三 
种 资源 分 配 策略 的 比较 如 表 6. 1 所 示 。 


表 6.1 三 种 资源 分 配 策略 比较 
FIFO Scheduler Capacity Scheduler Fair Scheduler 
多 用 户 情况 下 ,最 大 化 集 | 多 用 户 情况 下 ,强调 用 户 公平 地 贡献 
特点 最 简单 的 FIFO 策略 群 的 符 吐 率 和 利用 率 资源 
队列 组 织 单 队列 树 状 组 织 队列 ( 子 队列 和 | 树 状 组 织 队列 ( 子 队列 和 父 队列 不 存 
方式 父 队列 存在 继承 关系 ) 在 继承 关系 ) 
从 每 个 子 队 列 有 最 小 共享 量 、 最 大 资源 
资源 限制 | 无 父子 队列 之 间 有 容量 关系 量 和 最 大 活跃 应 用 数量 
队列 排序 按照 队列 的 资源 使 用 量 最 
算法 无 小 的 优先 根据 公平 排序 算法 排序 
本 地 优先 
分 配 支持 支持 支持 
延迟 调度 | 不 支持 不 支持 支持 
资源 抢占 | 不 支持 不 支持 支持 
6. 安全 管理 


ResourceManager 的 安全 管理 机 制 主 要 由 DelegationTokenSecretManager、 
Container TokenSecretManager , DelegationTokenRenewer 和 ApplicationTokenSecretManager 
等 组 件 完成 。DelegationTokenRenewer 主要 负责 更 新 已 提交 的 Applications 的 tokens, 直 到 
这 个 tokens 不 再 被 更 新 为 止 ; DelegationTokenSecretManager , Container TokenSecret Manager 
和 ApplicationTokenSecretManager 默认 是 采用 Kerberos 认证 的 ,用 于 认证 或 授权 各 种 RPC 
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接口 的 请 求 。 


622 NodeManager 


NodeManager 主要 负责 每 个 节点 上 的 资源 管理 .任务 执行 心跳 上 报 等 。 一 方面 , 它 
会 定时 通过 心跳 信息 向 ResourceManager 汇报 本 节点 上 的 资源 使 用 情况 和 各 个 
Container 的 运行 情况 ; 另 一 方面 , 它 会 接收 并 处 理 来 自 ApplicationMaster 的 Container 
启动 和 停止 的 各 种 请 求 。NodeManger'" 的 主要 组 成 如 图 6. 3 所 示 。 
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图 6.3 NodeManager 基本 组 成 
(图 片 来 源 : http://hortonworks. com/blog/apache-hadoop-yarn-nodemanager/) 


其 中 ,NodeStatusUpdater 是 NodeManager 与 ResourceManager 之 间 的 唯一 通道 ,周期 
性 地 调用 RPC. nodeHeartbeat O [s] ResourceManager 汇报 本 节点 上 的 资源 使 用 情况 、 各 个 
Container 运行 情况 等 信息 ;ContainerManager 是 NodeManager 的 核心 组 件 , 由 RPC Server、 
ResourceLocalizationService, ContainersLauncher、 AuxServices、 ContainersMonitor 和 
LogHandler 组 件 构成 ,每 个 组 件 负责 一 部 分 功能 ,以 管理 运行 在 该 节点 上 的 所 有 Container; 
ContainerExecutor 用 于 与 底层 的 操作 系统 进行 交互 ,YARN 提供 了 两 种 ContainerExecutor 
的 实现 , 即 DefaultContainerExecutor( 默 认 实 现 方式 ) 和 LinuxContainerExecutor( 新 引入 的 ); 
NodeHealthCheckerService 主要 由 LocalDirsHandlerService 和 NodeHealthScriptRunner 组 
成 ,主要 用 于 周期 性 地 检查 节点 的 健康 情况 ,并 提供 可 访问 的 API; WebServer 主要 用 于 展示 
该 节点 上 所 有 应 用 程序 和 Container 列表 ,节点 健康 相关 的 信息 和 Container 产生 的 日 志 。 
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ApplicationMaster 主要 负责 应 用 程序 的 申请 资源 ,监控 任务 运行 和 容错 等 。 每 个 
Application 都 会 有 一 个 与 之 对 应 的 ApplicationMaster, ApplicationMaster 会 为 与 之 对 应 
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的 Application 向 ResourceManager 申请 资源 .与 NodeManager 通信 以 启动 或 者 停止 任 
务 ,监控 所 有 任务 的 运行 情况 ,并 且 在 任务 失败 的 情 下 ,重新 为 任务 申请 资源 并 且 重 启 任 
Z. 负责 推测 任务 的 执行 、 当 ApplicationMaster 向 ResourceManager 注册 后 ， 
ApplicationMaster 可 以 提供 客户 端 查询 作业 进度 信息 等 。 

当前 YARN 自 带 了 两 个 ApplicationMaster 的 实现 ,一 个 是 用 于 演示 ApplicationMaster 
编写 方法 的 实例 程序 distributedshell, 另 一 个 是 运行 MapReduce 应 用 程序 的 
ApplicationMaster, 即 MRAppMaster。 其 中 , distributedshell 所 实现 的 ApplicationMaster 可 
以 申请 一 定数 目的 Container 以 并 行 运行 一 个 Shell 命令 或 Shell 脚本 ;MapReduce 所 实现 的 
ApplicationMaster ( MRAppMaster ) 主 要 由 ContainerAllocator、ContainerLauncher、 
RecoveryService, MRClientService, JobHistoryEventHandler 和 Speculator 等 组 件 组 成 。 其 
中 ,ContainerAllocator 用 F 向 ResourceManager 申请 资源 ; ContainerLauncher 用 于 请 求 
NodeManager 启动 MRYarnChild; RecoveryService 用 于 重新 恢复 MRAppMaster 的 运行 环 
境 ; JobHistoryEventHandler 用 于 处 理 jobhistory 信息 ; Speculator 用 于 推测 执行 等 。 
MRAppMaster 主要 负责 MapReduce 作业 的 生命 周期 的 管理 ,包括 创建 MapReduce 作业 、 向 
ResourceManager 申请 资源 .与 NodeManager 通信 和 启动 Container、 监 控 作 业 的 运行 状态 、 当 
任务 失败 时 重启 任务 等 ,使 得 MapReduce 计算 框架 可 以 运行 于 YARN 之 上 。 目 前 ,运行 在 
YARN 上 的 计算 框架 除了 默认 实现 的 MapReduce 之 外 ,还 有 Spark on YARN( 内 存 计算 框 
架 ) „Storm on YARN( 实 时 / 流 式 计算 框架 ) Tez on YARN(DAG 计算 框架 ) 等 。 用 户 也 可 
以 根据 自己 的 实际 需求 出 发 ,针对 不 同 的 编程 模型 实现 自己 的 ApplicationMaster, 使 之 可 以 
成 为 运行 在 YARN 上 的 框架 。 


G24 Container 


Container 是 系统 资源 动态 分 配 的 基本 单位 ,是 对 系统 资源 的 抽象 。YARN 会 为 每 
个 任务 分 配 一 个 Container. 并且 该 任务 只 能 够 使 用 该 Container 中 所 描述 的 资源 ,如 
CPU 内存、 磁盘 、 网 络 等 。Container 中 所 描述 的 资源 是 根据 实际 的 Application 需求 而 
动态 变化 的 ,其 生命 周期 主要 包括 启动 .运行 和 资源 回收 的 过 程 。 


1. 启动 Container 


在 启动 Container 之 前 ,需要 初始 化 Container 运行 所 需 的 环境 ,如 创建 对 应 
Container 目录 、 从 HDFS 下 载 Container 运行 所 需 的 Jar 包 和 可 执行 文件 等 。 准 备 好 
Container 运行 环境 之 后 , Container 的 启动 命令 是 由 各 个 ApplicationMaster 通过 RPC 
通信 向 NodeManager 发 送 请 求 指令 ,再 由 ContainersLauncher 来 完成 Container 的 启动 。 


2. 运行 Container 


Container 的 运行 是 由 ApplicationMaster 向 资源 所 在 的 NodeManager 发 送 运行 请 
求 指令 ,再 由 NodeManager 中 的 ContainerExecutor 来 完成 运行 的 。 
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3. 资源 回收 


当 任务 执行 完毕 后 , Container. 需要 对 所 占用 的 资源 进行 释放 回收 ,这 
NodeManager 中 的 ResourceLocalizationService 来 完成 的 。 


|Ë 


是 由 


6.3 YARN 工作 流程 


在 YARN 上 的 应 用 程序 按 其 生命 周期 的 长 短 可 分 为 长 应 用 程序 和 短 应 用 程序 。 其 
中 ,长 应 用 程序 是 指 在 程序 启动 后 将 一 直 运行 下 去 ; 短 应 用 程序 是 指 在 程序 启动 后 在 有 限 
时 间 内 运行 完成 后 ,释放 该 应 用 程序 所 占 的 资源 ,从 而 方便 Y ARN 进行 再 分 配 。 不 论 长 
应 用 程序 还 是 短 应 用 程序 ,YARN 的 工作 流程 都 一 样 , 具 体 的 工作 流程 如 图 6.4 所 示 。 
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图 6.4 YARN 工作 流程 


(1) 由 Client 端 向 YARN 提交 应 用 程序 到 ResourceManager 上 ,提交 的 内 容 包 括 
ApplicationMaster 程序 .启动 ApplicationMaster 的 命令 .本身 用 户 程序 的 内 容 等 。 

(2) ResourceManager 为 应 用 程序 ApplicationMaster 申请 资源 ,并 分 配 第 一 个 
Container, ApplicationMaster 获取 到 资源 后 ,与 对 应 的 NodeManager 通信 ,并 要 求 该 
NodeManager 在 对 应 的 Container 中 启动 应 用 程序 对 应 的 ApplicationMaster。 

(3) ApplicationMaster 首先 会 向 ResourceManager 进行 注册 ,来 表明 自己 启动 成 
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功 。 注 册 成 功 之 后 ,就 可 以 通过 ResourceManager 来 管理 ApplicationMaster. m H. HJ F: 
也 可 以 直接 通过 ResourceManager 的 Web 客户 端 来 查看 应 用 程序 的 运行 状态 。 然 后 
ResourceManager 将 为 各 个 任务 申请 资源 ,并 监控 它 的 运行 状态 ,不 断 重 复 (4) 一 (8), 直 
到 运行 结束 。 

(4) ApplicationMaster 周期 性 地 向 ResourceManager 中 的 ResourceScheduler 申请 
资源 ,资源 申请 成 功 后 再 领取 相应 资源 。 

(5) — H. ApplicationMaster 申请 到 资源 后 , ApplicationMaster 会 与 申请 到 的 
Container 所 对 应 的 NodeManager 进行 通信 ,并 将 启动 命令 交 给 NodeManager, 并 要 求 
ApplicationMaster 在 该 Container 中 启动 任务 。 

(6) NodeManager 为 要 启动 的 任务 配置 好 运行 环境 ,如 环境 变量 JAR 包 、 二 进 制程 
序 等 ,并 且 将 启动 命令 写 在 一 个 脚本 中 ,通过 该 脚本 在 Container 内 执行 用 户 提交 的 
代码 。 

CD 各 个 Container 通过 某 个 RPC 协议 向 ApplicationMaster 汇报 自己 的 状态 和 进 
度 , 以 便 让 ApplicationMaster 随时 掌握 各 个 任务 的 运行 状态 ,从 而 保证 在 任务 失败 时 重 
新 启动 该 任务 。 在 应 用 程序 运行 过 程 中 , 用 户 也 可 以 随时 通过 RPC 向 
ApplicationMaster 查询 应 用 程序 的 当前 运行 状态 。 

(8) 当 应 用 程序 运行 结束 后 , ApplicationMaster 向 ResourceManager 注销 并 关闭 
Hd. 

TE YARN 的 整个 工作 流程 中 ,ResourceManager 与 NodeManager 之 间 都 是 通过 心 
跳 保持 联系 的 ,NodeManager 会 通过 心跳 信息 向 ResourceManager 汇报 自己 所 在 节点 的 
资源 使 用 情况 。 


6.4 YARN 通信 机 制 


YARN 中 各 组 件 之 间 的 通信 都 需要 RPC 协议 的 支持 ,对 于 不 同 组 件 之 间 的 通信 ,所 
需 的 RPC 协议 类 型 不 同 。YARN 所 采用 的 是 一 种 拉 式 (Pull) 的 通信 模型 , 即 任何 两 个 需 
相互 通信 的 组 件 之 间 仅 有 一 个 RPC 协议 ;对 于 任何 一 个 RPC 协议 ,都 是 基于 Client/ 
Server 模式 ,其 中 请 求 服务 的 一 端 为 Client. 提供 服务 的 一 端 为 Server, 而 且 Client 总 是 
主动 连接 Server。YARN 的 通信 形式 有 Client( 作 业 提 交 客 户 端 ) 和 ResourceManager、 
Admin (管理 员 ) 和 ResourceManager、ApplicationMaster 和 ResourceManager、 
ApplicationMaster 和 NodeManager, NodeManager 和 ResourceManager 之 间 的 通信 ,如 
图 6. 5 所 示 ( 箭 头 指 向 的 组 件 为 RPC Server, 箭 头 男 一 端的 组 件 为 RPC Client), 

在 整个 YARN 框架 中 主要 涉及 7 个 RPC 协议 ,分 别 是 ApplicationClientProtocol、 
MRClientProtocol, ContainerManagementProtocol, ApplicationMasterProtocol, Resour- 
ceTracker, ResourceLocalizerProtocol, TaskUmbilicalProtocol 协议 。 而 在 YARN 中 各 
组 件 之 间 进 行 通信 用 到 的 主要 协议 如 下 。 
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6.5 YARN 各 组 件 之 间 的 通信 


1. ApplicationClientProtocol 


ApplicationClientProtocol 通信 协议 主要 用 于 作业 提交 客户 端 Client 与 
ResourceManager 之 间 的 通信 。 其 中 ,作业 提交 客户 端 Client 为 RPC Client. Resource- 
Manager 为 RPC Server。 作 业 提 交 客 户 端 Client 通过 该 RPC 协议 提交 应 用 程序 ,查询 


2. ResourceManagerAdministrationProtocol 


ResourceManagerAdministrationProtocol 通信 协议 主要 用 于 管理 员 端 Admin 与 
ResourceManager 之 间 的 通信 。 其 中 ,管理 员 端 为 RPC Client, ResourceManager 为 RPC 
Server。 管 理 员 端 Admin 通过 该 协议 更 新 系统 配置 文件 ,比如 节点 黑 名 单 、 用 户 队列 权 
限 等 。 


3. ApplicationMasterProtocol 


ApplicationMasterProtocol 通信 协议 主要 用 于 ApplicationMaster 5j ResourceManager 之 
间 的 通信 。 其 中 , ApplicationMaster 为 RPC Client. ResourceManager 为 RPC Server, 
ApplicationMaster 通过 该 RPC 协议 向 ResourceManager 注册 和 撤销 自己 ,并 为 各 个 任务 申 
请 资源 。 


4. ContainerManagementProtocol 


ContainerManagementProtocol 通信 协议 主要 用 于 ApplicationMaster 与 NodeManager 之 
间 的 通信 。 其 中 ,ApplicationMaster 为 RPC Client. NodeManager 为 RPC Server, 
ApplicationMaster 通过 要 求 NodeManager 启动 或 者 停止 Container, 获 取 各 个 Container 的 使 
用 状态 等 信息 。 


5. ResourceTracker 


Resource Tracker 通信 协议 主要 用 于 NodeManager 5j ResourceManager 之 间 的 通信 。 其 
中 ,NodeManager 为 RPC Client, ResourceManager 为 RPC Server。NodeManager 通过 该 
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RPC 协议 向 ResourceManager 注册 ,并 定时 发 送 心跳 信息 汇报 当前 节点 的 资源 使 用 情况 和 
Container 运行 状况 。 

另外 ,为 了 提高 Hadoop 不 同 版 本 之 间 的 兼容 性 和 性 能 ,YARN 的 序列 化 框架 采用 
T Google 开源 的 Protocol Buffers。YARN 中 的 所 有 RPC 通信 协议 都 是 以 proto 文件 的 
形式 进行 定义 的 。 例 如 ， applicationmaster _ protocol. proto 文件 定义 了 
ApplicationMaster 与 ResourceManager 之 间 的 通信 协议 ApplicationMasterProtocol ,其 
文件 内 容 如 下 。 


option java package- "org.apache .hadoop. yarn.proto"; 
cption java outer classname- "ApplicatiorMasterProtocol"; 
cption java generic services- true; 

cption java generate equals and has true; 

package hadoop. yarn; 


import "yarn servioe protos.proto"; 


EIS e SET ETE p Tee ( 
ES iste entier: T oeer n p ) um 
(Fegister?pplicationMasterResponseProto) ; 
use finish?rrlicatiorMe ( FinishAgplicatiore a p ) TT 
(Finish!gpilicatiorM R Proto); 
ypc allocate (AllocateReguestProto) returns (AllocateResponseProto) ; 

) 


同样 , applicationclient _ protocol. proto 文件 定义 了 作业 提交 客户 端 Client 与 
ResourceManager 之 间 的 协议 ApplicationClientProtocol; containermanagement_ protocol. proto 
文件 定义 了 ApplicationMaster 与 NodeManager 之 间 的 协议 ContainerManagementProtocol; 
resourcemanger administration protocol. proto 文件 定义 了 管理 员 端 Admin 与 Resource- 
Manager 之 间 的 通信 协议 ResourceManagerAdministrationProtocol; Resource Tracker. proto X: 
件 定义 了 NodeManager 与 ResourceManager 之 间 的 通信 协议 ResourceTracker. 53 5h. 
YARN 中 的 RPC 协议 参数 也 是 由 Protocol Buffers 定义 的 (proto 文件 ), 即 yarn_protos. 
proto 文件 。 该 文件 中 定义 了 各 个 RPC 协议 的 参数 ,用 户 可 以 根据 实际 业务 需求 来 修改 相 
应 的 配置 参数 (以 Hadoop 2. 6. 0 为 例 ,各 PRC 协议 可 在 hadoop-yarn-project/ hadoop-yarn/ 
hadoop-yarn-api/ src/ main/ proto/ yarn_protos. proto 文件 中 进行 配置 ) 。 


6.5 YARN 安全 机 制 


YARN 的 安全 机 制 策 略 与 前 面 所 提 到 的 HDFS 的 安全 机 制 策略 相同 ,包括 认证 
(Authentication) 和 授权 (Authorization) 两 部 分 。 在 Hadoop 2. 0 生态 系统 中 ,YARN 提 
供 了 两 种 认证 机 制 和 一 种 授权 机 制 ,下 面 将 以 Hadoop 2. 0 生态 系统 为 例 ( 以 Hadoop 
2. 6.0 stable 版 本 为 例 ) ,分 别 对 YARN 所 提供 的 授权 机 制 和 认证 机 制 进行 讲解 。 


了 了 
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YARN 的 认证 机 制 与 前 面 所 介绍 的 HDFS 的 认证 机 制 相同 ,都 是 采用 Kerberos 机 
制 和 Simple 机 制 ,如 Client 与 ResourceManager 之 间 初 次 通信 采用 Kerberos 机 制 进行 
身份 认证 , 而 之 后 的 通信 便 采 用 Simple 机 制 来 减 小 开销 ; NodeManager 与 
ResourceManager 之 间 始 终 采 用 Kerberos 认证 机 制 ( 有 关 Kerberos 认证 机 制 的 内 容 请 
查看 4.6.2 节 内 容 )。 要 为 YARN 添加 Kerberos 认证 机 制 , 除 需要 修改 core-site. xml 中 
的 hadoop. security. authentication 的 配置 参数 外 ,还 需要 生成 keytab 文件 ,并 复制 到 其 
他 的 所 有 节点 配置 目录 中 ,然后 再 修改 yarn-site. xml 中 的 相应 配置 参数 ,需要 修改 的 配 
置 参数 如 下 所 示 。 
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< name» yarn.nodemanager. lin- container- exeautor.groupc /name> 
«value» yarm /value> 
< /property> 


其 中 ,yarn. nodemanager. container-executor. class 默认 是 DefaultContainerExecutor, 是 以 
NodeManager 的 用 户 身份 启动 Container 的 ,这 里 使 用 的 LinuxContainerExecutor, 则 是 以 提 
AX Application 的 用 户 身 份 来 启动 和 销毁 Container, 

Simple 机 制 是 JAAS 协议 与 Delegation Token 整合 的 一 种 认证 机 制 , 如 在 Client 与 
ResourceManager 之 间 初 次 通信 时 ,并 没有 Delegation Token 生成 ,所 以 第 一 次 通信 采用 
Kerberos 机 制 进行 身份 认证 。 一 旦 通过 认证 , Client 将 得 到 密 钥 (masterKey) ,并 将 
Tokenldentifier 和 masterKey 发 送 给 ResourceManager, ResourceManager 重新 计算 
TokenAuthenticator 和 Token ,并 检查 该 Token 是 否 合法 。 如 果 Token 是 合法 的 ,Client 
和 ResourceManager 分 别 将 TokenAuthenticator 作为 密 钥 ,DIGEST-MD5 作为 认证 协 
议 进行 双方 认证 。 
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YARN 的 授权 机 制 与 HDFS 相同 ,也 是 通过 引入 访问 控制 列表 (Access Control 
List. ACL) 实 现 的 (有 关 ACL 的 授权 机 制 的 内 容 请 查看 4. 6. 1 节 内 容 )。 要 启动 YARN 
的 授权 机 制 ,要 配置 $ HADOOP_ HOME/etc/Hadoop/core-site. xml 中 的 hadoop. 
security. authorization 配置 参数 为 true. 然后 再 对 $ HADOOP_HOME/etc/Hadoop/ 
hadoop-policy. xml 文件 进行 配置 ,该 文件 可 以 实现 对 HDFS、MapReduce 和 YARN 的 
ACL 配置 ,其 中 与 YARN 有 关 的 配置 项 和 协议 之 间 的 对 应 关系 如 表 6. 2 所 示 。 


表 6.2 配置 项 与 协议 之 间 的 对 应 关系 


E OH m 协 议 名 
security. resourcetracker. protocol. acl ResourceTracker 
security. resourcemanager-administration. protocol. acl ResourceManagerAdministrationProtocol 
security. applicationclient. protocol. acl ApplicationClientProtocol 
security. applicationmaster. protocol. acl ApplicationMasterProtocol 
security. containermanagement. protocol. acl ContainerManagementProtocol 
security. resourcelocalizer. protocol. acl ResourceLocalizerProtocol 
security. job. task. protocol. acl TaskUmbilicalProtocol 
security. job. client. protocol. acl MRClientProtocol 
security. applicationhistory. protocol. acl ApplicationHistoryProtocol 


其 中 ,ResourceLocalizerProtocol 是 NodeManager 5j ResourceLocalizer 之 间 的 通信 协议 ; 
TaskUmbilicalProtocol 是 MapReduce Task 进程 与 后 台 父 进程 Task Tracker 之 间 的 通信 协 
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议 ;MRClientProtocol 是 MapReduce JobClient 与 MapReduce ApplicationMaster 之 间 的 通信 
协议 ;ApplicationHistoryProtocol 是 TimeLine Server 与 Generic History Service Client 之 间 的 
通信 协议 。 

在 本 实例 的 配置 文件 hadoop-policy. xml 中 与 YARN 有 关 的 默认 配置 内 容 如 下 。 
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«nane» security.applicationhistory.protocol .acl< /name> 
«value» * < /value» 
< property» 


Hp <value> * —/ value XR BU HH P1 RRA I SE RS HR AS Pa Ed R. WREEK 
现 不 同 用 户 或 用 户 组 具有 不 同 的 授权 时 ,就 需要 根据 实际 需求 进行 配置 (有 关 YARN 不 
同 权限 的 配置 请 查看 4. 6. 1 节 内 容 ) 。 


6.6 YARN 容错 机 制 


前 面 介绍 了 HDFS 通过 数据 块 的 多 副本 存储 机 制 .NameNode 的 单 点 失效 解决 机 
制 , 在 NameNode 和 DataNode 之 间 维 持 心跳 检测 ,检测 文件 块 的 完整 性 ,集群 的 负载 均 
衡 等 多 方面 的 方法 来 保证 其 容错 能 力 。YARN 同样 也 要 考虑 ApplicationMaster、 
NodeManager、ResourceManager 和 Container 组 件 的 容错 性 ,从 而 保证 Hadoop 集群 系 
统 的 稳定 运行 。 


1. ApplicationMaster 容错 


前 面 提 到 ,ApplicationMaster 主要 负责 应 用 程序 的 申请 资源 ,监控 任务 运行 和 容错 
4$, — H ApplicationMaster 运行 超时 或 失败 时 ,由 ResourceManager 负责 重新 启动 
AppliationMaster。 当 ApplicationMaster 重新 启动 后 ,就 需要 恢复 之 前 的 状态 ,而 状态 的 
恢复 过 程 就 是 ApplicationMaster 的 容错 。 如 YARN 自 带 的 MapReduce 应 用 程序 的 
MRAppMaster, 在 作业 执行 过 程 中 , MRAppMaster 会 不 断 地 将 作业 运行 状态 保存 到 
HDFS 上 (哪些 任务 运行 完成 ,哪些 未 完成 等 ) ,一旦 MRAppMaster 重启 后 ,可 通过 保存 
在 HDFS 上 的 作业 运行 状态 重新 恢复 原 各 个 作业 的 状态 ,并 只 需要 新 运行 未 完成 的 那些 
任务 即 可 。 对 于 ApplicationMaster 容错 性 的 性 能 可 通过 ApplicationMaster 的 恢复 性 测 
试 来 确定 ,如 测试 YARN 重启 后 作业 恢复 的 速度 来 确定 其 ApplicationMaster 的 容错 性 。 


2. NodeManager 容错 


NodeManager 主要 负责 每 个 节点 上 的 资源 管理 、 任 务 执行 ,心跳 上 报 等 。 如 果 
NodeManager 由 于 自身 或 网 络 因素 在 一 定时 间 内 没有 向 ResourceManager 进行 心跳 上 
报 ,ResourceManager 将 认为 NodeManager 及 在 上 面 正在 运行 的 Container 都 已 失效 ,并 
通知 与 其 对 应 的 ApplicationMaster 重新 分 配 资源 等 ,由 ApplicationMaster 决定 如 何 处 
理 NodeManager 中 Container 运行 失败 的 任务 。 
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3. ResourceManager 容错 


由 YARN 的 基本 构架 可 以 看 出 ,ResourceManager 主要 负责 集群 中 所 有 资源 的 统一 
管理 和 分 配 ,而 且 ResourceManager 与 NameNode 相似 ,自身 的 容错 性 对 Y ARN 整体 的 
容错 性 具有 重大 影响 ,也 存在 单 节 点 故障 。 在 Hadoop 2. 0 生态 系统 中 , HDFS 实现 了 
NameNode 的 HA, 同时 在 Hadoop 2. 4 版 本 以 后 ,也 开始 实现 了 ResourceManager 的 
HA, ResourceManager 的 HA 与 NameNode 的 HA( 请 查看 4.7. 3 节 ) 基 本 原理 相同 ,也 
是 一 种 Active/Standby 框架 ,在 任意 时 刻 ,都 有 一 个 是 Active, 其 余 处 于 Standby 状态 的 
ResourceManager 可 以 随时 转换 成 Active 状态 ,该 状态 的 转换 可 以 通过 在 CLI 输入 命令 
手工 完成 ,也 可 以 自动 完成 。 如 基于 ZooKeeper 的 ResourceManager HA 就 是 一 种 可 自 
动 实现 的 切换 技术 , 当 Active 状态 的 ResourceManager 失效 时 ,处 于 Standby 状态 的 
ResourceManager 就 会 被 选 为 Active 状态 ,实现 自己 切换 。 有 关 ResourceManager 的 


HA 配置 参数 如 表 6. 3 所 示 。 


表 6.3  ResourceManager HA 配置 参数 


配 置 项 


Hox 


yarn, resourcemanager. zk-address 


ZooKeeper 服务 器 地 址 


yarn. resourcemanager. ha. enabled 


是 否 启用 ResourceManager HA, 默 认为 false 


yarn, resourcemanager. ha. rm-ids 


ResourceManager 的 逻辑 ID 列表 ,用 逗号 分 隔 ， 
如 : rml,rm2 


yarn, resourcemanager. hostname. rm-id 


每 个 rm-id 的 主机 名 ,rm-id 的 值 包含 在 上 面 的 参 
数值 


yarn. resourcemanager. ha. id 


用 于 标识 ResourceManager 的 ID ffi 


yarn. resourcemanager. ha. automatic-failover. | 是 否 启 用 自动 故障 转移 。 默 认 情 况 下 ,在 启用 
enabled HA 时 ,启用 自动 故障 转移 

yarn. resourcemanager. ha. automatic-failover. | 启用 内 置 的 自动 故障 转移 。 默 认 情况 下 ,在 启用 
embedded HA 时 ,启用 内 置 的 自动 故障 转移 


yarn. resourcemanager. cluster-id 


集群 的 ID ,确保 ResourceManager 不 会 成 为 其 他 
集群 的 Active 


yarn. client, failover-proxy-provider 


Hi Client, ApplicationMaster, NodeManager 用 于 
故障 恢复 为 Active ResourceManager 时 的 类 


yarn. client. failover-max-attempts 


FailoverProxyProvider 尝试 故障 转移 的 最 大 次 数 


yarn. client. failover-sleep-max-ms 


故障 转移 间 的 最 大 休眠 时 间 ( 单 位 : ms) 


yarn. client. failover-retries 


每 个 尝试 连接 到 ResourceManager 的 重 试 次 数 


yarn. client. failover-retries-on-socket-timeouts 


34 Socket 超 时 时 , 每 个 尝试 连接 到 
ResourceManager 的 重 试 次 数 


有 关 ResourceManager HA 的 配置 ,可 根据 4. 7. 3 节 的 HDFS HA 作为 参考 (可 将 
Masterl. Hadoop 的 角色 设 为 rml, 即 Active ResourceManager; Master2. Hadoop 的 角色 设 为 


rm2, 即 Standby ResourceManager). 实现 ResourceManager HA( 查 看 状态 的 命令 : 


yarn 
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rmadmin -getServiceState rml; 状态 切换 的 命令 : yarn rmadmin -transitionToStandby rml)。 
有 关 ResourceManager HA 的 配置 请 查看 本 书 配套 资料 中 Demo/ YARN HA 文件 夹 中 的 相 
关内 容 。 


4. Container 容错 


Container 的 容错 机 制 是 由 ApplicationMaster 决定 的 , 当 ApplicationMaster 在 一 定 
时 间 内 对 已 分 配 到 的 Container 未 及 时 启动 , 则 ApplicationMaster 会 将 该 Container 的 
状态 设置 为 失效 并 回收 ; 当 Container 在 运行 过 程 中 ,因为 资源 不 足 等 因素 导致 运行 失 
败 , 则 由 ApplicationMaster 来 决定 如 何 处 理 该 Container。 


6.7 YARN 资源 调度 机 制 


YARN 的 资源 调度 机 制 是 由 ResourceManager 中 的 YarnScheduler 来 负责 完成 的 。 
在 前 面 章节 中 有 提 到 ,YarnScheduler 是 基于 Application 资源 需求 的 分 配 策略 ,将 资源 分 
配给 正在 运行 的 Application ,如 CPU 内存、 网 络 、 磁 盘 等 。 在 Hadoop 1. 0 生态 系统 中 ， 
YarnScheduler 默认 的 资源 分 配 策略 是 FIFO 实现 的 (FIFO Scheduler) ,但 还 可 以 使 用 其 
他 的 资源 调度 机 制 ,如 Fair Scheduler 和 Capacity Scheduler 等 资源 调度 机 制 ( 有 关 这 几 
种 的 资源 调度 机 制 的 区 别 请 查看 表 6. 1) 。 读 者 也 可 以 根据 自己 的 实际 需求 按照 接口 规 
范 (ResourceScheduler) 编 写 一 个 新 的 资源 调度 机 制 。 
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FIFO Scheduler 资源 调度 机 制 是 Hadoop 1. 0 生态 系统 中 默认 的 资源 调度 器 
(Hadoop 2. 0 生态 系统 中 的 默认 调度 器 已 经 改 为 Capacity Scheduler) , 它 先 按照 作业 的 
优先 级 高 低 ,再 按照 到 达 时 间 的 先后 选择 被 执行 的 作业 ,其 中 ,优先 级 越 高 分 配 的 资源 越 
多 。 该 资源 调度 机 制 的 优点 是 实现 非常 简单 ,调度 过 程 快 ;缺点 是 对 资源 的 利用 率 不 高 。 

FIFO Scheduler 的 资源 调度 器 实际 上 是 一 个 事件 处 理 器 ,通过 ResourceManager 的 
异步 事件 调用 机 制 处 理 来 自 外 部 的 9 种 Scheduler-EventType 类 型 的 事件 (以 Hadoop 
2. 6.0 版 本 为 例 ), 并 根据 事件 的 具体 含义 进行 相应 的 处 理 。 调 度 器 要 处 理 的 9 种 
Scheduler-EventType 类 型 的 事件 如 表 6. 4 所 示 。 


表 6.4 调度 器 事件 类 型 


处 理 类 事 件 发 送 时 机 
NODE_ADDED 当 一 个 NodeManager 被 添加 时 
NODE_REMOVED 当 一 个 NodeManager 被 移 除 时 
Node 当 一 个 NodeManager 跟 ResourceManager 


NODE_UPDATE 
ii 进行 心跳 时 


当 一 个 NodeManager 跟 ResourceManager 
进行 心跳 时 


NODE_RESOURCE_UPDATE 
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SX 
处 E 事 件 发 送 时 机 
APP_ADDED 当 一 个 新 的 应 用 被 提交 时 
RMApp 
APP REMOVED 当 一 个 应 用 被 移 除 时 
APP_ATTEMPT_ADDED 当 一 个 新 的 应 用 被 提交 时 
RMAppAttempt 
APP ATTEMPT REMOVED | 当 一 个 应 用 被 移 除 时 
E TUM CONTAINER EXPIRED 当 一 个 Container 过 期 未 被 使 用 时 


这 9 种 类 型 的 事件 处 理 方式 ,请 查看 hadoop-yarn-server-resourcemanager 项 目 工程 
下 的 FifoScheduler 类 中 的 handle() 方 法 ,代码 内 容 如 下 所 示 。 


Public void handle (SchedulerFvent event) ( 
switch (event..getType 0) ( 
case NXE AMED: // 增 加 总 资源 池 的 大 小 ,修改 状态 等 
{ 
NodezctiedSchedulerEvent: nodeñciHedEvent= (NodeAddedSchedilerFvent)event; 


break; 
case NXE FEMTED: /删除 一 个 NodeManager, 减 少 总 资源 池 的 大 小 
{ // 回 收 内 存 状态 中 的 在 该 NedeManager 上 的 Container 


NodeRemovedSchedulerEvent nodeRemovedEvent= (NodeRemovedSchedulerkvent) event; 
removeNode (nodeFemovedENent .getRemovecRMNode () ) ; 

1 

break; 

Case NIE RESOURCE. UFDATTE:: 

{ // 根 据 当前 NodeManager 状况 为 某 个 BEElicationMaster 分 配 Container 
NodeResourceUpdateSchedulerEvent nodeResouroeUpdatedEvent- 
(NodeRescuroeüUpdateSchedilerkvent) event; 
updatelNodeRescurce (nodeRescurosUpdatedevent .getFMNode () , 

nodeResourceUpdatecdEvent .getResouroeOption () ) ; 

} 

break; 

case NOTE. UPATE: 

t // 根 据 当前 NodsManager 状 况 为 某 个 HElicationMaster 分 配 Container 
NodeUpdateSchedulerEvent. nodeUpdatedEvent- 

(NodeUpdateSchedilerEvent) event. 
nodeUpdate (nodeUpdatedevent. .get EMNode ()  ; 
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} 
break; 
case APP. AITED: // 如 果 接 受 应 用 ,发 送 APP ACCEPTED SE fF 
t 
BEEPddedschednlerpvent app/cedEvent- (pp/icedschedi ergvent) event; 
addmpplication (appPctiedpvent.getapplicaticnrd()， 
appacieckvent..getQueue () , appdaedvent .getUser () , 
appicdecEvent .getTs6ppRecovering () ) ; 


case APP. FREMMED: // 清 除 内存 中 该 应 用 的 所 有 Container 
í // 对 每 个 Container R3% KILL SE fF 
ZppFerovedSchedulerEvent: appcFerrovedEvent- (pp RemrovedSchedilerEvent.) event; 
doneppplication (appRemovedevent .get2ppllicationID() , 
apcFerovedEvent .getFinalState ()) ; 


case APP ATIEMPT ALTED: // 如 果 接 受 应 用 ,发 送 APP ACCEPTED HE fr: 


AppAttemptacredschedilerkvent. appAttemptZciecdEvent- 
(appattenptpctiedschedmlerFvent)eventy 
addłplicationAttenpt (appattenpt7criedevent .get/pgpl i cati ont tenptTa () , 
appAttenpt2cedevent .get'TransferStateFramPrevicusAttemt () , 
appAttenptZcidedevent .getIsAttemptReoovering()) ; 
) 


break; 
case APP ATIEMPT FREMMED: // 清 除 内 存 中 该 应 用 的 所 有 Container 
{ // 对 每 个 container 发 送 KOLF fF 
MPAttenptRemovedSchedulerEvent arpAttemptRemovedEvent= 
(pAttenptRemovedSchedulerEvent)event; 
uyí 
doneApplicationAttempt ( 


appAttemptRemovedEvent .getZpplicationAttemptTD() , 
appattemptRerovedEvent .getFinalAttemptState () , 
apgpAttemptRemovedEvent .getKeepContainersAcrossAppAttempts () ) ; 
) catch (IGException ie) ( 
IQG.error ("Unable to remove application " 
+ apgpattemptRermovecEvent .getZpplicationAttemptID(), ie); 


case CONTAINER. EXPIRED: /修改 内 存 中 该 container 相 关 的 内 存 状 态 
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SchedilerUtils.EXPIRED CONIRINER) , 
RMzontainerkventType EXPIRE) ; 

) 

break; 

default: 


IOG.error ("Invalid eventtype "+ event.getType()+ ". Ignoring!") ; 
} 
} 


在 这 里 只 能 为 读者 抛砖引玉 ,具体 的 实现 细节 请 读者 认真 阅读 其 相关 源码 ,并 结合 
关 资 源 调度 机 制 的 相关 资料 ”7 ,真正 理解 资源 调度 机 制 ,最 好 能 达到 可 以 根据 自身 的 
业务 需求 ,开发 自己 的 资源 调度 器 的 能 力 。 
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Fair Schedulerc553 3t ii J EE BLR] B: h Facebook 开发 的 适合 共享 环境 的 调度 器 ， 
Fair Scheduler 支持 多 队列 ,多 用 户 共享 资源 ,每 个 分 组 用 户 可 以 配置 资源 量 , 也 可 限制 每 
个 用 户 和 每 个 分 组 中 的 并 发 运行 作业 数据 。 该 资源 调度 机 制 的 优点 是 支持 作业 分 类 调 
度 ,使 不 同类 型 的 作业 获得 不 同 的 资源 分 配 ,提高 服务 质量 ,动态 调整 并 行 作业 数量 ,充分 
利用 资源 ;缺点 是 不 考虑 节点 的 实际 负载 状态 ,导致 节点 负载 实际 不 均衡 。 

Fair Scheduler 的 资源 调度 机 制 同 FIFO Scheduler 资源 调度 机 制 相 似 , 也 需要 处 理 
9 种 不 同 SchedulerEventType 类 型 的 事件 ,Fair Scheduler 采用 了 三 级 资源 分 配 策略 , 当 
一 个 节点 上 有 空闲 资源 时 ,会 依次 选择 队列 .应 用 程序 和 Container 使 用 该 资源 ,具体 的 
处 理 过 程 如 下 。 

(1) Fair Scheduler 资源 调度 器 收 到 资源 申请 后 , 先 将 这 些 请 求 存放 到 一 个 数据 结构 
中 ,等 待 空闲 资源 出 现 后 为 其 分 配合 适 的 资源 。 

(2) 当 一 个 节点 上 有 空闲 资源 时 ,首先 需要 选择 队列 。YARN 采用 了 层次 结构 组 织 
队列 ,应 用 程序 只 存放 在 叶子 队列 ,而 其 他 非 叶 子 队 列 主 要 用 于 计算 叶子 队列 的 资源 量 。 
Fair Scheduler 采用 了 深度 优先 遍历 算法 ,从 根 队 列 开始 ,使 用 FIFO, Fair 或 DRF 
(Dominant Resource Fairness)5 策 略 对 所 有 子 队列 进行 排序 。 如 果 查 找到 子 队列 , 则 直 
接 选择 该 队列 ,否则 按 上 述 方法 继续 查找 叶子 队列 。 

(3) 当选 择 好 叶子 队列 之 后 ,就 需要 选择 应 用 程序 ,并 按照 Fair 策略 对 叶子 队列 内 部 
的 应 用 程序 进行 排序 ,依次 检查 排序 后 的 应 用 程序 所 需要 的 资源 量 与 Container 之 间 的 
匹配 关系 ,从 而 为 下 一 步 Container 的 选择 做 准备 。 
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(4) 不 同 应 用 程序 所 请 求 的 Container 是 不 同 的 ,如 优先 级 、 资 源 量 等 。Fair 
Scheduler 会 根据 优先 级 高 低 进行 分 配 Container, 对 于 同一 优先 级 的 情况 ,会 优先 选择 本 
地 性 的 Container。 

如 果 要 使 用 Fair Scheduler 资源 调度 机 制 ,需要 修改 两 部 分 配置 , 即 用 于 配置 调度 器 
相关 参数 的 yarn-site. xml 和 自 定义 用 于 配置 各 个 队列 的 资源 量 、 权 重 等 信息 的 配置 文件 
fair-scheduler. xml。 如 在 yarn-site. xml 文件 中 增加 yarn. resourcemanager. scheduler. 


class 配置 项 ,内 容 如 下 。 
<property> 


< description» The class to use as the resource schediler.« /description> 
«name» yarn.resourommanager.scheduler.class« /name> < value» org.apache.hadoop. yarn. server. 


然后 需要 在 ResourceManager 的 配置 目录 下 对 yarn-site. xml 文件 增加 相应 的 配置 
参数 。 表 6.5 给 出 了 在 yarn-site. xml 文件 中 需要 配置 的 相应 参数 及 对 应 的 描述 。 


表 6.5 yarn-site. xml 中 Fair Scheduler 配置 参数 


RON m dh o xk 
yarn. scheduler. fair. allocation. file 定义 XML 配置 文件 所 在 的 位 置 
默认 为 true, 表 示 指 定 用 户 名 作为 应 用 程序 所 在 的 队 
yarn. scheduler. fair. user-as-default-queue 列 名 ;如 果 设 为 false, 则 表示 所 有 未 知 队列 的 应 用 程序 
将 被 提交 到 default 队列 中 
i sled le i ei 默认 为 false, 表示 不 支持 资源 抢占 策略 ; 如果 设 为 
idu dandis true AER SCR VEURAG di 
默认 为 false, 表 示 采 用 公平 轮 询 的 方式 将 资源 分 配给 
yarn. scheduler. fair. sizebasedweight 各 个 应 用 程序 ;如 果 设 为 true, 则 表示 按 应 用 程序 资源 
需求 数目 分 配 资源 
默认 为 false, 表示 不 启用 批量 分 配 功能 ;如 果 设 为 
yarn. scheduler. assignmultiple true, 表 示 启 用 批量 分 配 功能 , 即 当 一 个 节点 出 现 大 量 
资源 时 ,可 一 次 性 分 配 完成 
yarn. scheduler. fair. max. assign 默认 为 一 1, 表 示 不 限制 一 次 可 分 配 的 Container 数量 
yarn. scheduler. fair. locality. threshold. node sein " pini sj 程序 请 求 某 个 节点 上 的 资源 时 ， 
yarn. scheduler. fair. locality. threshold. rack 2L ü ES vibe BEAT-UCSCE RN FCBUN LR BEEN 
yarn. scheduler. increment-allocation-vcores 默认 为 1, 表 示 虚 拟 CPU 规整 化 单位 


同时 需要 在 ResourceManager 的 配置 目录 下 新 建 fair-scheduler. xml 文件 ,并 增加 相 
应 的 配置 参数 。 表 6.6 给 出 了 fair-scheduler. xml 文件 中 需要 配置 的 相应 参数 及 对 应 的 
描述 。 
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表 6.6  fair-scheduler. xml 中 Fair Scheduler 配置 参数 


m "5 项 描 述 

minResources 最 少 资源 保证 量 , 设 置 格式 为 *X mb, Y vcores” 

Gasp bua 最 多 可 使 用 的 资源 量 , 即 保证 每 个 队列 使 用 的 资源 量 不 超过 该 
队列 最 多 可 使 用 的 资源 量 

maxRunningApps 最 多 同时 运行 的 应 用 程序 数量 

EPEE, EEEE EET 最 小 共享 量 抢占 时 间 * 即 一 个 资源 池 在 该 时 间 内 使 用 的 资源 量 
低 于 最 小 资源 量 时 ,进行 抢占 资源 

schedulingPolicy/schedulingMode | 队列 采用 的 调度 模式 ,如 FIFO, Fair 或 DRF 

aclSubmitApps 默认 为 * ”, 表 示 任 何 用 户 均 可 向 该 队列 提交 应 用 程序 

sdlAduinisterApps 队列 的 管理 员 列 表 ,一 个 队列 的 管理 员 可 管理 队列 中 的 资源 和 
应 用 程序 

maxRunningJobs 限制 最 多 同时 运行 的 应 用 程序 数量 

userMaxJobsDefault 用 户 的 maxRunningJobs 属性 的 默认 值 


defaultMinSharePreemptionTimeout | 队列 的 minSharePreemptionTimeout 属性 的 默认 值 


defaultPoolSchedulingMode 队列 的 schedulingMode 属性 的 默认 值 


公平 共享 量 抢占 时 间 , 即 如 果 一 个 资源 池 在 该 时 间 内 使 用 资源 
量 低 于 公平 共享 量 的 一 半 , 则 开始 抢占 资源 


fairSharePreemptionTimeout 


有 关 yarn-site. xml 和 fair-scheduler. xml 文件 的 配置 请 查看 本 书 配套 资料 中 Demo/ 
FairScheduler 文件 夹 中 的 相关 内 容 。 如 在 Hadoop 2. 6. 0 版 本 中 的 fair-scheduler. xml 
文件 中 给 出 的 相应 配置 内 容 如 下 所 示 。 


«allocations» 

«user name= "jenkins"» 
< 上 一 设置 了 三 个 队列 sis qee 1.sls queue 2, sls queue 3, 并 且 规 定 用 户 jenkins 最 多 可 同 
时 运行 1000 个 作业 --> 
«maxRunningJcbs» 1000€ /maxRunningJcbs> 

< /user» 

< userMexhppsDefault^ 1000€ /userMaxAppsDefault> 

«queue name- "sls queue 1"> 
< minResouroes> 1074 nb, 1 vcores< /minResources» 
< shedul ing bæ fair< /schedulingMode» 
< weight» 0.25 /weight> 

< /qaeue»- 

«queue name- "sls queue 2"> 
«minResources» 1024 nb, 1 vcores< /minResources» 
< schedulingvode» fair< /schedulingVode» 
«weight» 0.25« /weight^ 
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< /queue» 
«queue name- "sls queue 3> 
«minResources» 1024 mb, 1 voores« /minResources» 
«weight» 0.5« /weight> 
< schedülingwode» fair< /schedul ingvpde> 
< minSharePreenptionTimeout> 2< /minSharePreenptioriTimeout^ 
< /queue» 
< /allocations> 


综 上 所 述 ,Fair Scheduler 实现 了 资源 的 公平 共享 .基于 任务 数 的 负载 均衡 机 制 、. 调 度 
策略 的 灵活 配置 (FIFO、Fair 或 DRE) ,以 及 支持 资源 抢占 的 策略 。 如 果 读 者 需要 更 详细 
地 了 解 Fair Scheduler 资源 调度 机 制 及 具体 的 实现 ,请 查看 hadoop-yarn-server- 
resourcemanager 工程 下 org. apache. hadoop. yarn. server. resourcemanager. scheduler. 
fair 包 中 的 相关 类 和 org. apache. hadoop. yarn. server. resourcemanager. scheduler. fair. 
policies 包 中 的 相关 类 ,如 图 6.6 所 示 。 


4 88 org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair 

B) AllocationConfiguration.java 

> 国 AllocationConfigurationException.java 

> [Jj AllocationFileLoaderService.java 

> 国 FairScheduler.java 

li) FairSchedulerConfiguration.java 

[ñ FairScheduler£ventLog.java 

> D FifoappComparator.java 

> D FSAppAttempt.java 

M FSLeafQueue.java 

li) FSOpDurations.java 

> [jj FSParentQueue java 

> 国 FSQueue.java 

国 FSQueueMetrics.java 

lj) FSQueueType.java 

> [jj FSSchedulerNode.java 

> 国 MaxRunningAppsEnforcer.java 

I NewAppWeightBooster.java 

lj) QueueManager.java 

> D QueuePlacementPolicy.java 

> [B QueuePlacementRule.java 

国 Schedulable.java 

lj) SchedulingPolicy.java 
> 国 WeightAdjuster.java 

4 出 org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.policies 
> B) ComputeFairShares.java 
> |i) DominantResourceFairnessPolicy.java 
» 国 FairSharePolicy.java 
> 国 FifoPolicy.java 


6.6 Fair Scheduler 资源 调度 相关 类 


其 中 , AllocationConfiguration 和 AllocationConfigurationException 是 配置 文件 相 
关 类 ;FairScheduler 为 资源 调度 器 的 主体 部 分 ; FairSchedulerConfiguration 用 于 配置 常 
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量 和 默认 值 ; FairSchedulerEventLog 用 于 把 调度 事件 写 到 指定 的 Log 文件 中 ; 
QueueManager 用 于 维护 一 个 组 队列 ,并 提供 更 新 方法 ;SchedulingPolicy 用 于 不 同 的 组 
内 调度 策略 ,如 FIFO、Fair、DRF 等 ;WeightAdjuster 是 相应 权重 的 修改 接口 ;FifoPolicy 
主要 用 于 对 提交 作业 的 优先 级 排序 等 。 


673 Capacity Scheduler 


Capacity Scheduler? f ti. Yahoo 开发 的 适合 共享 环境 的 资源 调度 器 ,支持 多 用 户 
多 队列 管理 ,每 个 队列 可 以 配置 资源 量 ,该 资源 调度 器 可 以 通过 限制 每 个 用 户 和 每 个 队列 
的 并 发 运行 作业 数据 ,以 及 限制 每 个 作业 使 用 的 内 存量 等 来 防止 同一 个 用 户 的 作业 独占 
队列 中 的 资源 。 每 个 用 户 的 作业 有 优先 级 ,在 单个 队列 中 ,作业 按照 FIFO( 实 际 上 是 先 
按照 优先 级 ,优先 级 相同 的 再 按照 作业 提交 时 间 ) 的 原则 进行 调度 ,同时 考虑 用 户 资源 量 
限制 和 内 存 限制 。 该 资源 调度 机 制 的 优点 是 支持 多 作业 并 行 执行 ,提高 资源 利用 率 ,动态 
调整 资源 分 配 ,提高 作业 执行 效率 ;缺点 是 用 户 需要 了 解 大 量 系统 信息 ,才能 设置 和 选择 
队列 。 

Capacity Scheduler 的 资源 调度 机 制 同 FIFO Scheduler 和 Fair Scheduler 资源 调度 
机 制 相 似 , 也 需要 处 理 9 种 不 同 SchedulerEventType 类 型 的 事件 ,Capacity Scheduler 同 
样 也 采用 了 三 级 资源 分 配 策略 , 当 一 个 节点 上 有 空闲 资源 时 ,会 依次 选择 队列 .应 用 程序 
和 Container 使 用 该 资源 ,具体 的 处 理 过 程 如 下 。 

(1) Capacity Scheduler 资源 调度 器 收 到 资源 申请 后 , 先 将 这 些 请 求 存放 到 一 个 数据 
结构 中 ,等 待 空 闪 资源 出 现 后 为 其 分 配合 适 的 资源 。 

(2) 当 一 个 节点 上 有 空闲 资源 时 ,首先 需要 选择 队列 。YARN 采用 了 层次 结构 组 织 
队列 ,应 用 程序 只 存放 在 叶子 队列 ,而 其 他 非 叶 子 队 列 主要 用 于 计算 叶子 队列 的 资源 量 。 
Capacity Scheduler 5j Fair Scheduler 相同 ,都 采用 了 深度 优先 遍历 算法 ,从 根 队 列 开始 ， 
使 用 FIFO、Fair 或 DRF 策略 对 所 有 子 队列 进行 排序 。 如 果 查 找到 子 队 列 , 则 直接 选择 该 
队列 ,否则 按 上 述 方法 继续 查找 叶子 队列 。 

(3) 当选 择 好 叶子 队列 之 后 ,就 需要 选择 应 用 程序 ,Capacity Scheduler 按照 提交 时 
间 对 叶子 队列 中 的 应 用 程序 进行 排序 ,依次 检查 排序 后 的 应 用 程序 所 需要 的 资源 量 与 
Container 之 间 的 匹配 关系 ,从 而 为 下 一 步 Container 的 选择 做 准备 。 

(4) 不 同 应 用 程序 所 请 求 的 Container 是 不 同 的 ,如 优先 级 、 资 源 量 等 。Capacity 
Scheduler 会 根据 优先 级 高 低 分 配 Container, 对 于 同一 优先 级 的 情况 ,会 优先 选择 本 地 性 
的 Container。 

虽然 Capacity Scheduler 和 Fair Scheduler 在 实现 过 程 中 有 很 多 相似 处 ,都 支持 多 用 
户 多 队列 . 单 队列 均 支 持 优先 级 和 FIFO 调度 方式 、 均 支持 资源 共享 等 ,但 是 其 核心 的 调 
度 策略 不 同 。Capacity Scheduler 每 次 选择 资源 利用 率 低 的 Queue, 并 同时 考虑 FIFO 和 
内 存 制 约 因 素 ,而 Fair Scheduler 调度 策略 是 以 提高 资源 利用 率 和 减 小 集群 管理 为 前 提 
的 ,每 次 选择 资源 量 需 求 最 大 的 作业 为 调度 对 象 。 如 果 要 选用 Capacity Scheduler 资源 
调度 机 制 (在 Hadoop 2. 0 生态 系统 中 ,默认 为 该 资源 调度 机 制 ), 需 要 修改 两 部 分 配置 ， 
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即 用 于 配置 调度 器 相关 参数 的 yarn-site. xml 文件 和 自 定义 用 于 配置 各 个 队列 的 资源 量 、 
权重 等 信息 的 配置 文件 capacity-scheduler. xml。 如 在 yarn-site. xml 文件 中 增加 yarn. 


resourcemanager. scheduler. class 配置 项 ,内 容 如 下 。 


«property» 


< description» The class to use as the resource schediler.« /description» 


«name» yarn.resourcamanager.. schedüler.class« /name> 


< value» org.apache.hadoop. yarn. server. 


然后 需要 在 ResourceManager 的 配置 目录 下 对 yarn-site. xml 文件 和 capacity- 
scheduler. xml 文件 增加 相应 的 配置 参数 。 表 6. 7 给 出 了 capacity-scheduler. xml 文件 中 
需要 配置 的 相应 参数 及 对 应 的 描述 。 


表 6.7  capacity-scheduler. xml 中 Capacity Scheduler 配置 参数 


配 OH 项 


描 g 


capacity 


队列 容量 (百分比 ) ,应 保证 每 个 队列 的 容量 得 到 满足 


maximum-capacity 


队列 最 大 容量 (百分比 ) ,队列 使 用 共享 资源 时 ,不 得 超过 其 共享 资源 
容量 


minimum-user-limit-percent 


每 个 用 户 最 低 资源 保障 (百分比 ), 即 每 个 用 户 可 使 用 资源 量 不 能 超 
过 指定 百分比 


user-limit-factor 


每 个 用 户 最 多 可 使 用 的 资源 量 (百分比 ), 即 每 个 用 户 使 用 的 资源 量 
不 能 超过 该 队列 容量 的 指定 百分比 


maximum-applications 


默认 值 为 10 000, 即 集群 或 队列 中 同时 处 于 等 待 和 运行 状态 的 应 用 
程序 数量 的 上 限 


root. queues 


指定 根 队 列 


root. default. capacity 


指定 根 队列 的 容量 


node-locality-delay 


表示 当 应 用 程序 请 求 某 个 机 架 上 的 资源 时 ,可 跳 过 的 最 大 资源 调度 
机 会 


queue-mappings 


用 于 指定 作业 队列 映射 列表 


maximum-am-resource-percent 


默认 值 为 0.1, 即 集群 中 用 于 运行 应 用 程序 ApplicationMaster 的 资 
源 比 例 上 限 


resource-calculator 


默认 值 为 DefaultResourceCalculator, 即 指定 要 使 用 的 资源 计算 器 
为 DefaultResourceCalculator 


state 


用 于 设置 队列 状态 ,如 STOPPED fll RUNNING. STOPPED 状态 表 
示 用 户 不 可 将 应 用 程序 提交 到 该 队列 及 它 的 子 队列 ;RUNNING 状 
态 表示 用 户 可 以 将 应 用 程序 提交 到 该 队列 及 它 的 子 队列 


acl_submit_applications 


限定 哪些 用 户 或 用 户 组 可 向 给 定 的 队列 提交 应 用 程序 


acl_administer_queue 


为 队列 指定 一 个 管理 员 ,该 管理 员 可 控制 该 队列 的 所 有 应 用 程序 


有 关 yarn-site. xml 文件 和 capacity-scheduler. xml 文件 的 配置 请 查看 本 书 配套 资料 
中 的 Demo/CapacityScheduler 文件 夹 中 的 相关 内 容 。 如 在 Hadoop 2. 6. 0 版 本 中 的 
capacity-scheduler. xml 文件 中 给 出 的 相应 配置 内 容 如 下 所 示 。 


综 上 所 述 ,Capacity Scheduler 资源 调度 机 制 可 通过 设置 资源 最 低 保 障 和 资源 使 用 上 
限 来 进行 容量 保证 ,资源 的 灵活 分 配方 式 提高 了 资源 利用 率 , 通 过 ACL 访问 控制 的 方式 
提供 了 安全 保证 ,以 及 在 运行 时 就 可 随时 调整 分 配 参 数 的 动态 更 新 配置 等 。 如 果 读 者 需要 
更 详细 地 了 解 Capacity Scheduler 资源 调度 机 制 , 请 查看 hadoop-yarn-server-resourcemanager 
工程 下 org. apache. hadoop. yarn. server. resourcemanager. scheduler. capacity 包 中 相关 类 ,如 
图 6.7 所 示 。 

其 中 ,CapacitySchedulerConfiguration 是 配置 文件 相关 ,用 于 配置 常量 和 默认 值 ; 
CapacityScheduler 为 资源 调度 器 的 主体 部 分 ;CSQueue(Capacity Scheduler Queue) 定 义 
了 一 组 树 状 节点 应 该 提供 的 方法 ;LeafQueue (叶子 队 列 ) 和 ParentQueue( 父 队列 ) 是 
CSQueue 的 两 个 实现 ,用 户 提 交 的 作业 需要 提交 到 叶子 队列 。 
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4 8 org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity 


> 国 AbstractCSQueue.java 

> D CapacityHeadroomProvider.java 
> D CapacityScheduler.java 

> D CapacitySchedulerConfiguration.java 
> D CapacitySchedulerContext.java 
> D CSAssignment.java 

> D CSQueue.java 

> D CSQueueUtils.java 

> D LeafQueuejava 

> D ParentQueue.java 

> D PlanQueue.java 

> D ReservationQueue.java 


> [jj Userlnfo.java 


6.7 Capacity Scheduler 资源 调度 相关 类 


6.8 可 在 YARN 上 运行 的 框架 


YARN 是 Hadoop 2. 0 生态 系统 中 的 资源 管理 框架 ,不 仅 支持 MapReduce 的 计算 框 
架 ( 默 认 计算 框架 ) ,也 可 以 作为 其 他 计算 框架 的 资源 管理 系统 ,如 Spark 实时 计算 框架 、 
Storm 流 式 计 算 框架 、Tez 有 向 图 计算 框架 等 。 通 常 将 运行 在 YARN 上 的 计算 框架 称 为 
“X On YARN”, 如 “Storm On YARN”,“Spark On YARN”,“Tez On YARN” 等 。 除 此 


之 外 ,YARN 还 支持 其 他 类 型 的 框架 ,如 图 6.8 所 示 。 


BATCH INTERACTIVE ONLINE STREAMING GRAPH IN-MEMORY HPC MPI BE 
(MapReduce) (Tez) (HBase) (Storm, S4…) || (Giraph) (Spark) (OpenMPI) (Searc 
(Weave...) 
f V / V / V / V / Š! \ 


YARN (Cluster Resource Management) 


| 


图 6.8 YARN 支持 的 框架 


1. Storm on YARN 


Storm 是 一 个 免费 、 开 源 的 分 布 式 实时 计算 系统 ,与 前 面 所 介绍 的 MapReduce 的 批 
处 理 计 算 系 统 的 区 别 在 于 Storm 用 于 实时 处 理 流 式 数据 、 简 单 易 用 、 支 持 多 种 编程 语言 ， 
目前 Storm 已 升级 成 为 Apache MRAMA., Storm 除了 用 于 实时 分 析 之 外 ,还 可 用 于 在 
线 机 器 学 习 、 持 续 计 算 、 分 布 式 远程 调用 和 ETL 等 领域 。 目 前 最 新 版 本 为 0. 9.4, 有 关 
Storm 更 多 的 内 容 介 绍 请 查看 Storm 官网 (http://storm. apache. org/) 了 解 。 


2. Spark on YARN 


Spark 是 一 个 免费 .开源 的 分 布 式 实时 计算 系统 ,与 前 面 所 介绍 的 MapReduce 和 
Storm 的 不 同 之 处 在 于 Spark 启用 了 内 存 分 布 数据 集 , 除 了 能 够 提供 交互 式 查询 外 ,还 可 
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以 优化 迭代 工作 负载 ,目前 Spark 也 已 升级 成 为 Apache 顶级 项 目 。 目 前 最 新 版 本 为 
1.3.1,# 2 Spark 的 更 多 内 容 请 查看 Spark 官网 (http://spark. apache. org/) 了 解 。 


3. Tez on YARN 


Tez 是 Apache 最 新 开源 的 支持 DAG 作业 的 计算 框架 ,其 核心 思想 是 将 MapReduce 
计算 框架 的 Map 和 Reduce 两 个 阶段 进一步 拆 分 ,将 Map 拆 分 为 Input、Processor、Sort、 
Merge 和 Output; Reduce 被 拆 分 为 Input, Shuffle, Sort, Merge, Processor 和 Output 等 。 
这 些 分 解 后 的 元 操作 可 以 进行 灵活 组 合 ,从 而 形成 一 个 大 的 DAG 作业 。Tez 计算 框架 在 
迭代 计算 和 交互 式 计算 方面 比 现 有 的 MapReduce 框架 性 能 更 好 。 目 前 最 新 版 本 为 0. 6. 0， 
有 关 Tez 的 更 多 内 容 请 查看 Tez 官网 (http://tez. apache. org/) 了 解 。 


4. S4 on YARN 


S4U*! (Simple Scalable Streaming System, 分 布 式 流 计算 系统 ) 是 由 Yahoo 发 布 的 一 个 开 
源 通用 、 分 布 式 . 可 扩展 .部 分 容错 .具备 可 插 拔 功能 的 计算 框架 ,该 计算 框架 开发 最 初 是 用 
来 处 理 用 户 的 点 击 反馈 ,并 用 来 解决 搜索 广告 展现 的 实际 问题 。 有 关 S4 的 更 多 内 容 请 查看 
SA 的 开发 者 发 表 的 一 篇 技术 论文 S4: Distributed Stream Computing Plat form 和 SA 官网 
了 解 。 


5. Giraph on YARN 


Giraph 是 一 个 免费 .开源 的 迭代 的 图 计算 框架 ,计算 的 输入 是 由 点 和 直 连 的 边 组 成 
的 图 ,计算 时 将 MapReduce 中 的 Mapper 进行 封闭 ,而 未 使 用 Reducer, 并 且 在 Mapper 
中 进行 多 次 迭代 ,每 次 迭代 等 价 于 BSP 模型 中 的 SuperStep。Giraph 最 早 是 由 Yahoo JF 
发 并 发 布 的 ,后 来 捐赠 给 Apache 软件 基金 会 。 目 前 Facebook 在 开发 图 谱 搜 索 服务 时 ， 
选择 采用 了 Giraph 的 计算 框架 ,用 来 处 理 数 万 亿 次 用 户 及 其 行为 之 间 的 连接 。 有 关 
Giraph 的 更 多 内 容 请 查看 Giraph 的 一 篇 技术 论文 Pregel: A System for Large-Scale 
Graph Processing? 和 Giraph 官网 了 解 。 


6.9 YARN 编程 实例 


YARN 是 一 个 资源 管理 框架 ,负责 集群 的 资源 管理 和 分 配 ,如 果 要 在 YARN 上 运行 
非特 定 计算 框架 的 应 用 程序 ,就 需要 实现 自己 的 Client 和 ApplicationMaster。 本 实例 将 
以 Hadoop 2. 6. 0 版 本 中 自 带 的 DistributedShell 应 用 程序 为 例 ,介绍 如 何 将 一 个 新 的 应 
用 程序 或 新 的 计算 框架 运行 在 YARN 之 上 。 


691 编程 过 程 


要 将 新 的 应 用 程序 或 计算 框架 运行 在 YARN 之 上 ,就 需要 编写 Client 和 
ApplicationMaster 两 个 组 件 。 如 在 MapReduce on YARN 的 编程 实例 中 ,YARN 已 经 为 
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MapReduce 实现 了 一 个 可 直接 使 用 的 Client 和 ApplicationMaster. BJ MRClientService 
和 MRAppMaster。 


1. Client 过 程 


Client 端 主要 通过 RPC 通信 协议 与 ResourceManager 进行 交互 ,负责 向 
ResourceManager 提交 ApplicationMaster, 并 查询 应 用 程序 的 运行 状态 。Client 具体 过 程 
如 下 。 

(1) Client 端 首先 需要 通过 RPC 协议 ApplicationClientProtocol 中 的 getNewApplication() 
方法 向 ResourceManager 提交 应 用 程序 请 求 GetNewApplicationRequest， 当 
ResourceManager 收 到 GetNewApplicationRequest 的 请 求 后 ,返回 该 应 用 程序 所 需要 的 
资源 信息 并 进行 应 答 GetNewApplicationResponse。 

(2) Client 将 从 ResourceManager 上 获取 的 应 用 程序 ID, 名称、 优先 级 .资源 使 用 上 
下 限 等 与 应 用 程序 相关 的 所 有 运行 配置 封闭 到 数据 结构 ApplicationSubmissionContext 
中 ,从 而 完成 ApplicationMaster 的 初始 化 配置 。 

(3) Client 通过 ApplicationClientProtocol 中 的 submitApplication ( ) 方法 将 
ApplicationMaster 提交 到 ResourceManager 上 。 

(4) ResouceManager 根据 ApplicationSubmissionContext 封装 的 应 用 程序 内 容 及 六 
行 环境 配置 参数 启动 ApplicationMaster。 

(5) Client 通过 多 种 方式 查询 应 用 程序 的 运行 状态 ,如 可 通过 ApplicationMaster 或 
ResourceManager 来 获取 应 用 程序 的 运行 状态 ,并 控制 应 用 程序 的 运行 过 程 。 通 常 为 了 
减少 ResourceManager 的 压力 ,可 使 用 从 ApplicationMaster 获取 应 用 运行 状态 的 方式 。 

如 果 读 者 想 查 看 Client 过 程 中 涉及 的 有 关 类 和 相应 内 容 , 请 查看 Hadoop API 或 
hadoop-yarn-api 工程 下 org. apache. hadoop. yarn. api 中 的 ApplicationClientProtocol 类 
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和 org. apache. hadoop. yarn. api. records 包 中 的 ApplicationSubmissionContext 类 , 
2. ApplicationMaster 过 程 


ApplicationMaster 主要 负责 向 ResourceManager 申请 资源 .并 与 NodeManager 通信 来 
启动 各 个 Container, 而 且 还 负责 监控 各 个 作业 的 运行 状态 和 为 失败 的 作业 重新 申请 资源 
等 。 这 就 涉及 ApplicationMaster 与 ResourceManager 之 间 的 通信 协议 Application- 
MasterProtocol. ApplicationMaster 与 NodeManager 之 间 的 通信 协议 Container- 
ManagementProtocol, ApplicationMaster 具体 过 程 如 下 。 

(1) Client 向 ResouceManager 提交 应 用 程序 后 ,ResourceManager 会 根据 提交 的 信息 来 
分 配 一 定 资 源 并 启动 ApplicationMaster。ApplicationMaster 会 通过 Application- 
MasterProtocol 协议 中 的 registerApplicationMaster() 方 法 主动 向 ResourceManager 发 送 注册 
请 求 ,进行 注册 。 

(2) ApplicationMaster 完成 注册 后 ,再 通过 ApplicationMasterProtocol 协议 中 的 allocate() 
方法 向 ResourceManager 申请 运行 应 用 程序 所 需要 的 资源 。ApplicationMasterProtocol 
中 的 allocate ( ) 方 法 不 仅 具 有 向 ResourceManager 申请 资源 的 功能 ,还 具有 向 
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ResourceManager 归还 资源 ,以 及 周期 性 地 在 ApplicationMaster 5j ResourceManager 之 
间 发 送 心跳 的 功能 。 

(3) ApplicationMaster 获取 资源 后 , 通过 ContainerManagementProtocol 的 
startContainers() 方 法 在 NodeManager 上 启动 Containers, 

(4) ApplicationMaster 不 断 重复 (2) 和 (3), 直到 所 有 应 用 程序 运行 完成 后 ， 
ApplicationMaster 通过 ApplicationMasterProtocol 协议 中 的 finishApplicationMaster() 
方法 向 ResourceManager 汇报 应 用 程序 的 最 终 状 态 , 并 注销 ApplicationMaster。 

如 果 读 者 想 查 看 ApplicationMaster 过 程 中 涉及 的 有 关 类 和 相应 内 容 , 请 查看 
Hadoop API 或 hadoop-yarn-api 工程 下 org. apache. hadoop. yarn. api 中 的 Application- 


MasterProtocol 类 和 ContainerManagermentProtocol 类 。 


692 DistributedShell 实例 


DistributedShell 应 用 程序 是 YARN 自 带 的 一 个 非常 简单 的 应 用 程序 实现 ,可 看 作 
YARN 编程 中 的 “Hello World”, 其 主要 功能 是 并 行 执行 用 户 提供 的 Shell 命令 或 者 
Shell 脚本 。 本 节 将 通过 DistributedShell 应 用 程序 实例 来 介绍 如 何 进行 YARN 编程 。 


1. 编写 Client 


DistributedShell 应 用 程序 是 由 Client 类 来 完成 其 Client 功能 的 ,Client 的 入 口 为 
main 函数 ,main 函数 的 代码 内 容 如 下 。 


Public static void main(String[] args){ 
Client client- new Client () ; 


boolean dcEun- client. init (args) ; 


result- client.run() ; 


) 


DistributedShell 应 用 程序 中 Client 中 最 重要 的 函数 为 run O , 2 ER CE T Client 
的 功能 ,其 代码 内 容 如 下 。 


public boolean run()throws IOExoeption, YarnExoeption { 
Yamclient.start () ; 
//*j ResourcsManager 通 信 , 获 得 Application ID 
Yamclientapplicaticon app- yarrClient .create?pplication() ; 
GetNewhrplicationResponse appResponse- app.getNewApplicationResponse () ; 
//PpplicationMaster BU 47] th 4k Bc BE 
App] icationSummissionContext appOontext- 
app.getZpplicationSutmissionContext () ; 
ApplicationId apgpId- apoContext..getzgolicationId() ; 


关于 DistributedShell 应 用 程序 Client. 的 具体 内 容 , 请 查看 本 书 配套 资料 中 
DistributedShell 工程 下 的 Client 类 。 


2. 编写 ApplicationMaster 


DistributedShell 应 用 程序 是 由 ApplicationMaster 类 来 完成 其 ApplicationMaster 功 
能 的 ,ApplicationMaster 类 的 入 口 为 main 函数 .main 函数 的 代码 内 容 如 下 。 


DistributedShell 应 用 程序 中 ApplicationMaster 最 重要 的 函数 为 run() ,该 函数 实现 
了 ApplicationMaster 的 功能 ,其 代码 内 容 如 下 。 
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public void run ()throws YamFxoeption, IOException ( 


//AgplicatiorMaster 与 ResourosManager 通信 ,注册 自己 

// 开 始 发 送 心跳 到 ResouroeManager 
licati Ji 
.IEegistermpplicationMaster (aprMasterHostname, appMasterRpcPort, 
akEMasterTrackingUr]); 


// 向 ResourceManager 申 请 资源 

/启动 Containers 

for(int i= 0; i < nurffotalContainersTcFequest;* + i) ( 
GontainerReguest containerAsk- setubContainerASkFOrRM() ; 
aM lient .acdContainerReguest (containerAsk) ; 

y 


} 
关于 DistributedShell 应 用 程序 ApplicationMaster 的 具体 实现 细节 ,请 查看 本 书 配 
套 资料 中 DistributedShell 工程 下 的 ApplicationMaster 类 。 
3. 打包 运行 


当 写 好 Client 和 ApplicationMaster 之 后 .就 可 以 对 该 YARN 应 用 程序 进行 测试 、 打 
包 和 运行 ,具体 的 测试 和 打包 方法 请 查看 5. 6 节 的 MapReduce 开发 实例 的 相关 内 容 。 这 
里 已 对 DistributedShell 实例 进行 测试 和 打包 ,下 一 步 将 通过 输入 命令 行 来 对 
DistributedShell 应 用 程序 进行 运行 。DistributedShell 的 基本 运行 参数 如 下 所 示 o 


-apa <arg> 应 用 程序 名 

— container memory «arg» 表明 每 个 Container 需 要 的 内 存 资 源 

- container vores « arg» 表明 每 个 Container 需 要 的 虚拟 内 核 数 
-help 输出 帮助 信息 

-jar «arg» 表明 运行 HplicationMaster 的 应 用 程序 
-master memory «arg» 表明 ApplicationMaster 需 要 的 内 存 资源 
-master vcores <arg> 表明 zpplicationMaster 需 要 的 虚拟 内 核 数 
— priority «arg» 表明 优先 级 

-shell ommend < arg» 表明 每 个 Container 上 执行 的 真正 应 用 程序 
-shell script «arg» 表明 每 个 Container 上 执行 的 真正 应 用 程序 


本 实例 的 输入 参数 如 下 。 


[hadqocpemasterl ~ ]$ hadoop jar 
/hadoop/yam/hadocp- yarm applications- distributedshell- 2.6.0.jar 


DistributedShell 的 运行 日 志 如 下 。 


到 此 ,YARN 的 DistributedShell 实例 的 基本 过 程 已 经 解析 完成 ,请 读者 通过 该 实例 
深入 理解 YARN 的 编程 过 程 ,达到 触 类 旁 通 为 止 。 
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分 布 式 列 存储 数据 库 HBase 是 一 个 高 可 靠 性 、 高 性 能 、 面 向 列 、 可 伸缩 的 分 布 式 存储 系 
统 , 类 似 于 Google BigTeble 利用 GFS 的 文件 存储 系统 。 本 章 将 介绍 HBase 的 基本 特点 、 体 系 架 
H RRE 数据 模型 .关键 技术 及 交互 接口 等 内 容 。 


7.1 HBase 概述 


HBase 是 一 个 分 布 式 的 、 面 向 列 的 开源 NoSQL 数据 库 , 能 够 对 大 型 数据 提供 随机 、 
实时 的 读 写 访问 ,是 基于 Google 的 BigTable 的 开源 实现 C9 , Google 的 BigTable 利用 
GFS 作为 其 文件 存储 系统 ,HBase 利用 Hadoop 的 HDFS 作为 其 文件 存储 系统 ;Google 
通过 MapReduce 来 处 理 BigTable 中 的 海量 数据 , HBase 同样 利用 Hadoop 中 的 
MapReduce 来 处 理 HBase 中 的 海量 数据 ;Google BigTable 利用 Chubby 作为 协同 服务 ， 
HBase 则 利用 ZooKeeper 作为 协同 服务 。HBase 在 Hadoop 之 上 提供 了 类 似 于 
BigTable 的 能 力 ,主要 用 于 存储 并 处 理 大 规模 的 数据 ,与 传统 关系 型 数据 库 的 不 同 之 处 
在 于 , 它 是 一 个 适合 于 结构 化 、 半 结构 化 和 非 结 构 化 数据 存储 的 数据 库 ;不 是 基于 行 的 存 
储 模式 ,而 是 基于 列 的 存储 模式 。 

随 着 Hadoop 的 良好 发 展 和 2006 年 Google 发 表 的 A Distributed Storage System 
for Structured Data" i X Jy. HBase 的 诞生 提供 了 一 些 基础 性 的 理论 和 实践 基础 。 
2007 年 4 月 ，Cafarella 发 布 了 实验 性 的 、 基 本 可 用 的 BigTable 系统 代码 ,并 称 其 为 
HBase, 然 后 由 Powerset 公司 的 Jim Kellem 接手 继续 推进 该 项 目 。2007 年 10 月 ,HBase 
的 第 一 个 发 布 版 本 是 由 Hadoop 0. 15. 0 捆绑 在 一 起 发 布 的 。HBase 发 展 简 史 如 表 7. 1 
所 示 。 


表 7.1 HBase 发 展 历程 


时 a 事 # 
2006 年 11 月 Google 公司 Chang 等 人 发 表 的 BigTable 论文 
2007 年 4 月 基于 BigTable 的 HBase 源码 基本 可 用 
2007 年 10 月 HBase 第 一 个 发 布 版 本 (Hadoop 0.15.0) 
2008 年 1 月 Hadoop 成 为 Apache 的 顶级 项 目 ,HBase 成 为 Hadoop 的 子 项 目 
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Er 
时 a 事 件 
2008 年 10 月 HBase 0. 18. 1 发 布 
2009 年 1 月 HBase 0. 19. 0 发布 
2009 Æ 9 H HBase 0. 20. 0 发 布 
20104£ 5 H HBase 成 为 Apache 的 顶级 项 目 
2010 年 6 月 HBase 0. 89. 20100621, 第 一 个 开发 版 本 
2011 年 1 月 HBase 0. 90. 0 发 布 ,稳定 性 和 持久 性 有 所 提升 
2012 年 1 月 HBase 0. 92.0 发 布 ,支持 协 处 理 器 和 安全 控制 
2012 年 5 月 HBase 0. 94. 0 发 布 ,包含 很 多 性 能 的 提升 和 Bug 修复 及 新 特性 
2013 年 4 月 HBase 0. 95. 0 发 布 ,性 能 提升 .Bug 修复 及 新 特性 
2013 年 10 月 HBase 0. 96. 0 发 布 , 提 高 了 稳定 性 、 平 均 恢复 时 间 (MTTR) 等 
2014 年 2 月 HBase 0. 98. 0 发布 ,提高 了 性 能 和 安全 特性 
2014 年 11 月 HBase 0. 99. 0 发布 ,提高 了 性 能 和 安全 特性 
2015 年 2 月 HBase 1. 0.0 发 布 , 简化 和 提升 Region Assignment 的 可 靠 性 等 
2015 年 4 月 HBase 2. 0. 0-SNAPSHOT 发 布 ,更 好 地 支持 Cell 级 别 的 ACL 控制 等 


HBase 的 主 版 本 与 Hadoop 的 主 版 本 号 是 相互 匹配 的 ,如 HBase 0. 19. x 就 表示 它 是 
工作 在 Hadoop 0. 19.X 之 上 的 。 因 此 ,不 同 的 Hadoop 版 本 需要 选择 不 同 的 HBase 版 


Æ. Hadoop 版 本 与 HBase 版 本 之 间 的 对 应 关系 如 表 7. 2 所 示 。 


37.2 Hadoop 版 本 与 HBase 版 本 之 间 的 对 应 关系 


HBase HBase HBase HBase HBase 

0.92.x 0.94.x 0.96.x 0.98.x 1.0.x 
Hadoop 0. 20. x 支持 并 测试 | 不 支持 不 支持 不 支持 不 支持 
Hadoop 0. 22. x 支持 并 测试 | 不 支持 不 支持 不 支持 不 支持 
Hadoop 1. 0. 0-1. 0. 2 不 支持 不 支持 不 支持 不 支持 不 支持 
Hadoop 1. 0. 3+ 支持 并 测试 | 支持 并 测试 | 支持 并 测试 | 不 支持 不 支持 
Hadoop 1. 1.x 支持 未 测试 | 支持 并 测试 | 支持 并 测试 | 不 支持 不 支持 
Hadoop 0. 23. x 不 支持 支持 并 测试 | 支持 未 测试 | 不 支持 不 支持 
Hadoop 2. 0.x 不 支持 支持 未 测试 | 不 支持 不 支持 不 支持 
Hadoop 2.1.0 不 支持 支持 未 测试 | 支持 并 测试 | 不 支持 不 支持 
Hadoop 2. 2.0 不 支持 支持 未 测试 | 支持 并 测试 | 支持 并 测试 | 支持 未 测试 
Hadoop 2.3. x 不 支持 支持 未 测试 | 支持 并 测试 | 支持 并 测试 | 支持 未 测试 
Hadoop 2. 4. x 不 支持 支持 未 测试 | 支持 并 测试 | 支持 并 测试 | 支持 并 测试 
Hadoop 2.5. x 不 支持 支持 未 测试 | 支持 并 测试 | 支持 并 测试 | 支持 并 测试 
Hadoop 2. 6. x 不 支持 支持 未 测试 | 支持 并 测试 | 支持 并 测试 | 支持 并 测试 


O mouki 


AR 7. 2 可 以 看 出 , 随 着 HBase 版 本 的 发 展 ,为 了 满足 多 Hadoop 版 本 的 支持 ,一 个 
HBase 版 本 可 以 工作 于 多 个 Hadoop 版 本 之 上 ,不 再 只 工作 于 与 其 主 版 本 匹配 的 某 一 个 
Hadoop 版 本 中 。 从 HBase 0. 90.0 主 版 本 开始 ,版 本 号 的 命名 遵循 了 奇偶 发 布 版 本 号 的 
惯例 , 即 奇数 版 本 号 为 开发 人 员 预 览 版 (Developer Previews) ,偶数 版 本 号 为 可 以 产品 化 
的 稳定 版 (Stable)。 因 此 ,稳定 版 的 发 布 版 本 包括 0. 90、0. 92,0. 94、0. 96,0. 98、 
1.0.0 等 。 


7.2 HBase 特点 


传统 的 数据 库 系 统 已 无 法 适应 大 型 分 布 式 数 据 存储 的 需要 ,而 且 关系 模型 对 数据 的 
操作 使 数据 的 存储 变 得 异常 复杂 ,从 而 需要 一 种 适用 于 存储 不 同 种 类 的 数据 源 \ 不 同类 型 
数据 格式 ,不 强调 数据 之 间 的 关系 ,并 且 满 足 大 规模 数据 处 理 的 数据 库 。HBase 就 是 这 
样 一 个 数据 库 , 它 是 一 种 高 可 靠 性 、 高 性 能 、 面 向 列 、 可 伸缩 ,实时 读 写 的 分 布 式 存储 系统 ， 
利用 HBase 技术 可 实现 大 规模 的 数据 存储 集群 。HBase 从 设计 理念 上 就 为 可 扩展 做 好 
了 充分 准备 ,存储 空间 的 扩展 只 需要 加 入 存储 节点 即 可 线性 扩展 ,使 用 不 同 于 关系 型 数据 
库 中 * 表 ?的 概念 (实质 上 是 一 张 极 大 的 ,非常 稀 玻 的 ,不 支持 SQL、 存 储 在 分 布 式 文件 系 
统 上 的 表 ) 的 实时 读 写 的 分 布 式 文件 存储 系统 ,其 具体 特点 如 下 。 


1. 强 一 致 性 


HBase 在 设计 时 选择 了 分 布 式 系统 CAP 理论 中 的 CP, 并 保证 单行 的 ACID( 原 子 性 
Atomicity、 一 致 性 Consistency、 隔 离 性 Isolation 和 持久 性 Durability), 即 HBase 是 强 一 
致 性 的 。 其 中 ,CAP 是 Consistency( 一 致 性 )、Availability( 可 用 性 ) 和 Partition-tolerance 
(分 区 容错 ) 的 缩写 。Consistency( 一 致 性 ) 是 指 在 分 布 式 系统 中 的 所 有 数据 备份 ,在 同一 
时 刻 是 否 具有 同样 的 值 ;Availability( 可 用 性 ) 是 指 在 集群 中 一 部 分 节点 故障 后 ,集群 整体 
是 否 还 能 响应 客户 端的 读 写 请 求 ;Partition-tolerance( 分 区 容错 ) 是 指 集群 中 的 某 些 节点 
在 无 法 联系 后 ,集群 整体 是 否 还 能 继续 进行 服务 。HBase 的 强 一 致 性 主要 体现 在 每 个 
HRegion 同时 只 有 一 台 HRegionServer 为 它 服务 ,对 一 个 HRegion 所 有 的 操作 请 求 ,都 
由 这 台 HRegionServer 来 响应 。 

2. 行事 务 

HBase 提供 行 级 的 事务 ,并且 同 一 行 的 列 的 写 和 人 是 原子 操作 。 在 HBase 0. 94 版 本 
之 前 ,HBase 支持 的 事务 是 很 有 限 的 ,每 次 行事 务 只 能 执行 一 个 写 操作 ,比如 连续 地 执行 
一 系列 Put 或 Delete 操作 ,这 些 操作 是 单独 一 个 个 的 事务 ,其 整体 并 不 是 原子 性 执行 的 。 
在 HBase 0. 94 版 本 之 后 ,HBase 具备 更 完整 的 事务 支持 ,可 以 实现 Put 或 Delete 在 同一 


个 事务 中 一 起 原子 性 执行 (具体 请 查看 HBASE-3584. https://issues. apache. org/jira/ 
browse/HBASE-3584) 。 
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3. 实时 读 写 


HBase 通过 行 锁 和 MVCC (Multiversion Concurrency Control. 多 版 本 并 发 控制 技 
术 ) 保 证 了 高 效 的 并 发 读 写 。 建 议 读者 使 用 HBase 系统 自身 提供 的 性 能 测试 工具 
(. /bin/hbase org. apache. hadoop. hbase. PerformanceEvaluation) 对 HBase 的 随机 读 写 
进行 性 能 测试 。HBase 自己 带 的 性 能 测试 工具 提供 了 随机 读 写 、 多 客户 端 读 写 等 性 能 测 
试 功能 。 作 者 根据 工具 测试 的 结果 看 , HBase 的 实时 读 写 性 能 不 算 差 。 


4. 面向 列 


HBase 是 面向 列 (Column-Oriented) 的 存储 机 制 ,与 RDBMS 的 面向 行 (Row- 
Oriented) 的 存储 机 制 不 同 , 在 面向 列 的 存储 机 制 下 对 于 Null 值 的 存储 是 不 占用 任何 空 
间 的 ,如 在 HBase 中 某 个 表 有 10 9 ,但 在 存储 时 只 有 一 列 有 数据 ,那么 无 数据 的 9 列 就 
不 占用 存储 空间 ,而 对 于 RDBMS 的 面向 行 存储 时 , 则 10 列 全 部 占用 存储 空间 。 因 此 ， 
HBase 更 适合 存储 稀 玖 的 半 结 构 化 或 非 结构 化 的 数据 。 


5. 可 伸缩 性 


当 硬 件 出 现 故障 时 ,HBase 能 够 轻易 地 增加 或 者 减少 硬件 数量 ,而 且 对 错误 的 兼容 
性 比较 高 。HBase 的 可 伸缩 性 还 体现 在 HRegion 的 自动 分 裂 ;Master 的 Balance 策略 保 
证 HRegion 数 的 均衡 ;通过 增加 DataNode 即 可 增加 容量 ;通过 增加 HRegionServer 即 可 
增加 读 写 吞吐 量 等 。 


7.3 HBase 体系 架构 


HBase 的 体系 架构 也 是 一 个 典型 的 Master/Slave 架构 ,主要 包括 HBase Client、 
ZooKeeper, HMaster, HRegionServer 和 Store, HLog 等 ,其 体系 架构 如 图 7. 1 所 示 。 

从 图 7. 1 可 以 看 出 ,用 户 可 通过 Client 读 写 数据 ;HMaster 负责 管理 元 数据 ( 表 分 
区 ,管理 该 分 区 的 HRegionServer); HRegionServer 负责 HRegion 数据 的 存储 和 读 取 ; 
ZooKeeper 主要 负责 协调 HBase 中 的 所 有 HRegionServer, 并 处 理 HBase 运行 期 间 可 能 
遇 到 的 错误 ;HBase 逻辑 上 的 表 可 能 会 被 划分 成 多 个 HRegion, 然 后 将 HBase 的 所 有 数 
据 (HLog 和 HFile) 均 存储 到 HDFS 上 ;HDFS 将 文件 划分 成 64MB 的 Block ,并 存储 多 
个 副本 。HBase 体系 架构 中 各 组 件 的 具体 功能 描述 如 下 。 


1. HBase Client 


HBase Client 主要 用 于 提供 访问 HBase 的 接口 .并 维护 着 一 些 Cache 来 加 快 对 
HBase 的 访问 ,如 Client 通过 RPC 通信 机 制 与 HMaster 通信 进行 管理 类 操作 :Client iÑ 
过 RPC 机 制 与 HRegionServer 通信 进行 数据 读 写 类 操作 。 
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7.1 HBase 体 系 架构 
(图 片 来 源 : http://www. toadworld. com/) 


2. ZooKeeper 


ZooKeeper 为 HBase 提供 了 稳定 服务 和 failover 机 制 ,通过 ZooKeeper 的 Master 
Election 机 制 解决 HMaster 的 单 节 点 故障 。ZooKeeper Quorum 不 仅 存储 了 -ROOT- 表 
的 地 址 (HBase 中 有 两 张 特殊 的 Table 表 ,-ROOT- 和 . META.. META 表 可 以 有 多 个 
HRegoin, 记 录 了 用 户 表 的 Region 信息 ;-ROOT- 表 只 允许 有 一 个 HRegion, 记录 了 
. META 表 的 HRegion fii BO ,而 且 也 存储 了 HMaster 的 地 址 ,保证 任何 时 候 集群 中 只 有 
一 个 HMaster。ZooKeeper 还 实时 监控 HRegionServer 的 状态 ,并 将 HRegionServer 的 
相关 信息 实时 通知 给 HMaster。 


3. HMaster 


HMaster 主要 负责 Table 表 和 HRegion 的 管理 工作 ,如 管理 用 户 对 Table 表 的 增 、 
删 查 、 改 操作 ;管理 HRegionServer 的 负载 均衡 ,并 调整 HRegion 分 布 ; 4 HRegion 分 
裂 后 ,负责 重新 分 配 HRegion; 4 HRegionServer 停机 后 ,负责 对 失效 HRegionServer 上 
的 HRegions 迁移 等 。HMaster 还 负责 监控 每 个 HRegionServer 的 健康 状况 ,如 果 某 个 
HRegionServer 不 可 用 ,HMaster 将 会 由 其 他 HRegionServer 来 代替 该 HRegionServer 
为 其 提供 服务 。 


4. HRegionServer 


HRegionServer 主要 负责 响应 用 户 的 1/0 请 求 , 并 向 HDFS 文件 系统 中 读 写 数据 ， 
是 HBase 中 最 核心 的 模块 。HRegionServer 还 负责 与 了 Master 之 间 进 行 通信 ,获取 自己 
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所 需要 服务 的 数据 表 , 并 向 HMaster 反馈 自己 的 运行 状况 。 
5. Store 


Store 存储 是 HBase 的 存储 核心 ,每 个 Store 又 由 一 个 MemStore 和 零 个 或 多 个 
StoreFiles 组 成 。 其 中 ,MemStore 是 Stored Memory Buffer, 用 户 写 入 的 数据 首先 会 放 
入 MemStore 中 , 当 MemStore 满 后 ,会 Flush 成 一 个 StoreFile( 底 层 实现 为 HFile), ` 
StoreFile 文件 数量 增长 到 一 定 阅 值 时 ,就 会 通过 Compact 合并 操作 ,将 多 个 StoreFiles 
通过 版 本 合并 和 数据 删除 等 操作 合并 成 一 个 StoreFile, 从 而 保证 了 HBase 的 I/O 性 能 。 


6. MemStore 


MemStore 用 于 存储 修改 的 数据 KeyValues. MemStore 是 放 在 内 存 中 的 。 当 
MemStore 的 大 小 达到 一 个 阅 值 (默认 为 64MB) 时 ,MemStore 会 被 HBase 进行 flush 操 
作 , 从 而 生成 一 个 快照 。 


7. StoreFile 


MemStore 内 存 中 的 数据 写 到 文件 后 就 是 StoreFile, StoreFile 的 底层 实现 是 以 
HFile 的 格式 保存 在 HDFS 上 的 。 


8. HRegion 


HRegion 是 实际 存储 数据 的 区 域 , 是 分 布 式 存储 和 负载 均衡 的 最 小 单元 (不 是 存储 
的 最 小 单元 ,存储 的 最 小 单元 为 HFile) , 它 包 含 一 个 或 多 个 Store。 最 小 单元 就 表示 不 同 
的 HRegion 可 以 分 布 在 不 同 的 HRegionServer 上 ,但 一 个 HRegion 不 会 拆 分 到 多 个 
HRegionServer E, 


9. HLog 


HLog 主要 用 于 保存 用 户 操作 HBase 的 日 志 信 息 ,其 存储 格式 为 WAL (Write 
Ahead Log) ,物理 上 是 Hadoop 的 Sequence File 文件 。 用 户 的 所 有 操作 都 会 先 记 录 到 
HLog 中 ,然后 再 保存 到 HRegion 中 。 由 于 MemStore 驻 留 在 内 存 中 ,保存 数据 时 会 先 存 
储 到 MemStore 中 ,然后 再 根据 用 户 设 定 的 显 式 或 隐 式 的 刷 写 模式 将 数据 保存 到 HFile 
中 。 当 出 现 数据 已 保存 到 MemStore, 还 没有 刷 写 到 HFile 而 出 现 异 常 时 ,HLog 就 会 将 
用 户 操作 的 指令 保存 起 来 ,并 重新 执行 这 些 指令 ,完成 数据 的 存储 。 


10. HFile 


HFile 主要 负责 实际 数据 的 存储 ,是 Hadoop 的 二 进 制 格式 文件 ,也 是 HBase 中 存储 
的 最 小 单元 。 用 户 可 根据 业务 需求 对 HFile 进行 重新 拆 分 ,让 数据 更 加 分 散 , 从 而 提高 数 
据 读 取 效 率 。 
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7.4 HBase 安装 配置 


要 使 得 HBase 在 Hadoop 集群 中 充分 发 挥 作 用 ,就 需要 相应 的 软件 、 硬 件 及 以 太 网 
络 的 支撑 。 下 面 将 针对 HBase 系统 正常 运行 所 需要 的 软 硬 件 环境 、 网 络 环境 、 安 装 选项 、 
运行 模式 配置、 部署 等 方面 进行 介绍 ,帮助 初学 者 对 HBase 进行 更 深入 的 研究 和 学 习 。 


741 准备 工作 


一 个 完整 的 Hadoop 集群 在 安装 前 需要 做 好 Hadoop 集群 的 规划 , 即 软 硬件 环境 、 网 
络 环境 、 各 节点 上 安装 的 操作 系统 、 集 群 参 数 配 置 等 一 系列 过 程 。HBase 是 Hadoop 生态 
系统 中 的 一 个 组 件 ,因此 ,在 Hadoop 集群 规划 时 ,就 应 该 考虑 到 对 HBase 的 集群 规划 
(有 关 集 群 规划 的 相关 内 容 请 查看 3. 6 节 )。 在 没有 实际 业务 需求 ,以 研究 和 学 习 为 目的 ， 
并 帮助 初学 者 快速 搭建 HBase 集群 环境 的 情况 下 ,本 实例 将 在 表 3. 7 的 Hadoop 集群 搭 
建 的 基础 上 ( 软 硬 件 环境 及 网 络 环境 ) 对 HBase 集群 中 的 各 节点 角色 进行 分 配 ,具体 节点 
角色 分 配 和 配置 参数 信息 如 表 7. 3 所 示 。 


表 7.3 HBase 集群 节点 角色 分 配 
机 器 名 称 f Ë IP 地 址 硬件 参数 操作 系统 


NameNode iim i 
LI 1GI 
SecondaryNameNod 
Masterl.Hadoop | Py ae 0 | 192.168.1.100 | manem 1 CentOS 7 
ResourceManager 加 硬盘 (SCSD) 20GB 
HMaster 
DataNode 
NodeManager MET Jon 
Slavel. Hadoop ñ 192.168.1.101 | 局 处 理 器 1 CentOS 7 
P 加 硬盘 (SCSD 20GB 
ooKeeper 
DataNode 
NodeManager mee Ton x 
Slave2. Hadoop A 192.168.1.102 | 号 处 理 器 1 CentOS 7 
HRegionServer 加 硬 盘 (SCSD) 20GB 
ZooKeeper 
DataNode 
Nodemanager NEUE m m 
Slave3. Hadoop H š 192.168.1.103 | 2388 1 CentOS 7 
5 M DAWSR(SCSI 20GB 
ooKeeper 


由 表 7. 3 可 以 看 出 ,Master 机 器 主要 配置 HMaster 角色 ,主要 负责 Table 和 Region 
的 管理 工作 ;Slave 机 器 配置 HRegionServer 和 ZooKeeper 角色 ,主要 负责 响应 用 户 1/0 
请 求 . 向 HDFS 文件 系统 中 读 写 数据 、HRegionServer 的 状态 监控 等 。 

HBase 的 软 硬 件 环境 、 网 络 环境 、 各 节点 操作 系统 等 都 规划 好 之 后 ,还 要 选择 HBase 
所 使 用 的 底层 分 布 式 文件 系统 。 因 为 HBase 本 身 无 法 复制 和 维护 自身 存储 文件 的 副本 ， 
需要 底层 的 文件 存储 系统 保证 其 数据 存储 的 可 靠 性 、 容 错 性 和 可 扩展 性 。 在 Hadoop Æ 
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态 系 统 中 ,HDFS 成 为 HBase 最 常 使 用 的 文件 系统 作为 底层 存储 ,当然 也 可 以 使 用 其 他 
任何 支持 Hadoop 接口 的 文件 系统 代替 HDFS, 如 本 地 文件 系统 、S3 等 。 本 实例 HBase 
选择 默认 的 Hadoop 文件 系统 HDFS, 该 文件 系统 是 在 生产 实践 中 广泛 使 用 并 经 过 检验 
的 分 布 式 文件 系统 。 


742 安装 HBase 


HBase 的 安装 方式 主要 有 两 种 ,一 种 是 源码 编译 型 的 安装 方式 , 另 一 种 是 二 进 制 发 
布 包 的 安装 方式 。 源 码 编译 型 的 安装 方式 需要 安装 Maven 以 及 完整 的 Java 开发 工具 包 
(Java Development Kit,JDK) 来 准备 HBase 的 编译 和 运行 环境 ,再 对 HBase 源码 进行 编 
译 和 打包 ,从 而 完成 HBase 的 安装 。 本 实例 将 采用 第 二 种 HBase 的 安装 方式 , 即 采用 二 
进 制 发 布 包 的 安装 方式 。 首 先 需 要 从 HBase 官网 Chttp://hbase. apache. org/) 下载 
HBase 的 最 新 版 本 (到 目前 为 止 HBase 最 新 版 为 2. 0. 0-SNAPSHOT, 本 实例 下 载 了 
HBase-1. 0. 0 版 本 ,该 版 本 的 HBase 本 身 已 带 ZooKeeper, 不 需要 单独 安装 ) ,并 将 内 容 解 
压 到 适当 目录 中 ,具体 命令 如 下 。 


#tar - zxvf hbase- 1.0.0 -- 解 压 HEase 二 进 制 文件 
#nv hbase- 1.0.0 /apt/ -移动 hbase- 1.0.0 到 "/opt/" 目 录 下 

一 -把 "/apt/tibase- 1.0.0" 读 权限 分 配给 hacocp H P: 
#chown -R hadoop:hadocp /cpt-/rbase- 1.0.0 


#vi /etc/profile -- 把 HBase 安 装 路 径 添加 到 配置 文件 profile rh 
export HASE HOME- /cpt-/rbase- 1.0.0 
export PATH $ PATH:$ HEASE HME/bin 

#su hadbop -- 切 换 为 hadoop H P 


通过 上 述 命令 ,就 完成 了 HBase 二 进 制 文件 的 解压 ,hadoop 权限 .配置 环境 变量 等 
过 程 ,将 所 有 的 Master 节点 和 Slave 节点 都 进行 上 述 操作 后 , HBase 系统 就 安装 成 功 了 。 
安装 成 功 后 HBase 的 文件 目录 如 图 7.2 所 示 。 


- 7 hadoop hadoop 4096 May 
izwx------ - 24 hadoop hadoop 4096 May 4 04:56 .. 
irwxr-xr-x. 4 hadoop hadoop 4096 May 4 04:52 bin 


|-w-r--r--. 1 hadoop hadoop 130672 Feb 14 22:40 CHANGES.txt 
irwxr-xr-x. 2 hadoop hadoop 4096 May 4 04:52 conf 
irwxr-xr-x. 12 hadoop hadoop 4096 May 4 04:54 docs 
iwxr-xr-x. 7 hadoop hadoop 75 May 4 04:52 hbase-webapps 
irwxr-xr-x. 3 hadoop hadoop 8192 May 4 04:52 lib 
|-w-r--r--. 1 hadoop hadoop 11358 Jan 25 04:47 LICENSE.txt 
|-zw-r--r--. 1 hadoop hadoop 897 Feb 14 22:18 NOTICE.txt 
L-rw-r--r--. 1 hadoop hadoop 1477 Feb 12 19:21 README.txt 


图 7.2 HBase 的 文件 目录 


从 图 7. 2 中 可 以 看 到 , 根 目录 包含 一 些 文本 文件 ,如 CHANGES. txt( 版 本 变更 日 
志 )、 LICENSE. txt iE nf 4 gk) , NOTICE. txt( 注 意 事项 ) 和 README. txt( 说 明文 档 ) 。 
根 目录 中 还 包括 如 bin、conf、docs、hbase-webapps #ll lib 目录 ,这 些 目录 包含 的 内 容 如 下 。 
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l. bin 


bin 目录 中 包含 HBase 提供 的 所 有 脚本 ,如 start-hbase. sh( 启 动 HBase 集群 )、 
hbase-daemon. sh( 启 动 或 停止 单个 HMaster/HRegionServer/ZooKeeper)、stop-hbase. 
sh( 停 止 HBase 集群 )、hbase-config. sh (装载 相关 配置 ,如 HBASE_ HOME 目录 、 
HRegionServer 机 器 列表 JAVA_HOME FH 3 55) , hbase-env. sh( 配 置 JVM、GC 参数 、 
LOG 目录 ) 等 。 


2. conf 


conf 目录 中 包含 定义 H Base 的 配置 文件 ,如 hbase-site. xml( 增 加 HBase 的 特定 配 
置 )、hbase-env. sh( 配 置 HBase 的 环境 变量 ) .regionservers( 配 置 所 有 HRegion 服务 器 的 
主机 名 ) \log4j. properties( 配 置 HBase 的 日 志 级 别 ) 等 。 


3. docs 


docs 目录 包含 HBase 工程 网 页 的 副本 、 工 具 、API 和 项 目 自身 的 文档 信息 。 读 者 可 
以 用 浏览 器 打开 docs/index. html 文件 或 docs/book. html 文件 查看 有 关 HBase 的 更 详 
细 信 息 。 


4. hbase-webapps 


hbase-webapps 目录 中 包含 Java 实现 的 Web 接口 ,用 户 在 部 署 HBase 到 生产 环境 
中 或 使 用 HBase 时 ,一 般 很 少 会 接触 到 该 目录 中 的 文件 。 
5. lib 


lib 目录 中 包含 HBase 运行 所 依赖 的 很 多 类 库 , 如 hadoop-client-2. 5. 1. jar、hadoop- 
hdfs-2. 5. 1. jar, hadoop-mapreduce-client-core-2. 5. 1. jar ,hbase-server-1. 0. 0. jar 等 类 库 。 
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HBase 安装 完成 后 ,就 要 对 其 进行 配置 ,根据 HBase 运行 模式 不 同 ,其 配置 内 容 有 所 
区 别 。HBase 的 运行 模式 有 单机 模式 (默认 模式 )、 伪 分 布 模式 (所 有 守护 进程 都 运行 在 
单个 节点 上 ) 和 全 分 布 模式 (进程 运行 在 物理 服务 器 集群 中 ) 三 种 ,读者 可 根据 自己 的 集群 
规划 来 选择 不 同 的 运行 模式 ,在 这 里 采用 全 分 布 模式 来 对 HBase 进行 配置 。 


1. 配置 hbase-env. sh 


在 配置 文件 hbase-env. sh 里 面 可 设置 HBase 环境 变量 ,如 可 以 配置 JVM 启动 的 堆 
大 小 、GC 的 参数 .HBase 的 参数 .Log 位 置 等 。 读 者 可 以 打开 文件 conf/hbase-env. sh 细 
读 其 中 的 内 容 , 每 个 选项 都 是 有 详细 的 注释 的 。 本 实例 hbase-env. sh 的 配置 内 容 如 下 。 
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#vim /opt/hibase- 1.0.0/conf/hibase- env.sh. 


# 配 置 内 容 : 

export JAVA HOME- /usr/java/3dk1.7.0 71/ #Java 安 装 路 径 

export HEASE, IOS DIR-$ {HEASE HOME)/1o9s #HBase 日 志 路 径 

export HASE MANAGES 7K- true # 由 HEase 负 责 启动 和 关闭 ZocKeeper 


在 一 个 分 布 式 运行 模式 下 的 HBase 需要 依赖 一 个 ZooKeeper 集群 ,并 且 所 有 的 节点 


和 Client 端 都 必须 能 够 访问 ZooKeeper。 默 认 情 况 下 ,HBase 会 管理 一 个 ZooKeeper 集 


因此 需要 设置 HBASE_MANAGES_ZK 为 true, 来 由 HBase 管理 启动 和 关闭 。 
2. 配置 hbase-site. xml 


在 配置 文件 hbase-site. xml 中 ,可 以 通过 设置 hbase. cluster. distributed 参数 来 设置 


HBase 的 运行 模式 。 如 果 读 者 想 了 解 有 关 bhase-site. xml 的 更 多 信息 ,请 查看 HBase 项 
目 源码 目录 src/main/resources 下 的 hbase-default. xml 文件 。 本 实例 hbase-site. xml 的 
配置 内 容 如 下 。 


< value» hdfs://master1.hadoop:9000/hbase< /value> 
< /property> 


«property» 
< name» hbase.cluster.distributeck /name» 
< value» true< /value» 


< name» hibase.zookeeper.quorum /name> 
< value» Slavel .Hadpop, Slave? .Hadbcp, Slave3.Hadoop« /value» 
< property» 


«property» 
< name» hbase.zookeeper.property.dataDir« /name> 
< value» /apt/hbase 1.0.0/zookeeper« /value> 

< /property> 

</configuration> 


其 中 ,hbase. rootdir 是 用 来 设置 HRegionServer 的 共享 目录 ,用 来 持久 化 HBase, 如 


果 采 用 默认 设置 , HBase 会 写 到 /tmp 目录 下 , 当 HBase 重启 时 数据 丢失 ; hase. cluster. 
distributed 用 来 设置 HBase 的 运行 模式 ,false 是 单机 模式 ,true 是 分 布 式 模 式 ( 包 括 伪 分 
布 式 和 全 分 布 式 ), 若 为 false, HBase 和 ZooKeeper 会 运行 在 同一 个 JVM 中 ; hbase. 
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zookeeper. quorum 用 来 设置 ZooKeeper 集群 的 地 址 列表 ,地 址 之 间 用 逗号 分 隔 ,如 本 实 
例 将 Slavel. Hadoop. .Slave2. Hadoop 和 Slave3. Hadoop 设置 为 ZooKeeper 集群 ;hbase. 
zookeeper. property. dataDir 用 来 设置 ZooKeeper 保存 数据 的 目录 地 址 ,这 里 设置 
为 /opt/hbase-1. 0. 0/zookeeper 目录 下 。 


3. 配置 regionservers 


regionservers 文件 用 于 配置 运行 HBase 的 机 器 ,此 文件 的 配置 和 Hadoop 中 的 Slave 
配置 类 似 ,一行 指定 一 台 机 器 。 本 实例 regionservers 文件 配置 内 容 如 下 。 


#vim /opt/hbase— 1.0.0/conf/regionservers 
# 配 置 内 容 : 

Slavel.Hadoap 

Slave2.Hadoap 

Slave3.Hadoop 


4. 各 主机 间 复 制 HBase 


本 实例 针对 HBase 的 一 系列 配置 都 是 在 Masterl. Hadoop 的 机 器 上 进行 配置 的 ,经 
过 上 述 对 几 个 配置 文件 的 配置 ,HBase 的 配置 已 完成 。 最 后 ,将 Masterl. Hadoop 机 器 上 
的 一 系列 配置 文件 复制 到 各 个 节点 ,从 而 完成 HBase 的 分 布 式 部 署 。 本 实例 各 主机 间 复 
制 HBase 的 命令 如 下 。 


#scp -r /opt/rbase- 1.0.0 Slavel.Hadoop: /apt- 
#scp - r /opt/hbase 1.0.0 Slave2.Hacccp:/cpt: 
#scp - /opt/hbase- 1.0.0 Slave3.Hadocp: /apt- 


到 此 ,HBase 的 安装 配置 就 已 完成 ,在 H Base 的 配置 方面 ,只 完成 了 最 基本 的 配置 ， 
并 没有 对 HBase 进行 优化 配置 ,有 兴趣 的 读者 可 以 对 HBase 进行 配置 优化 。 
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HBase 安装 配置 完成 之 后 ,下 一 步 来 启动 并 测试 HBase. HBase 的 正常 启动 顺序 应 
该 为 Hadoop 一 ZooKeeper~HBase, 停 止 顺序 为 HBase-ZooKeeper- Hadoop. P4. 
启动 HBase, 首 先 要 保证 Hadoop 和 ZooKeeper 的 正常 运行 。 其 中 ,只 需要 保证 Hadoop 
的 正常 运行 即 可 ,ZooKeeper 的 启 停 由 HBase 控制 。HBase 的 启动 命令 如 下 。 


[hadoop@ masterl /]$ start- Hbase.sh 

Slave3.hadocp: starting zookeeper, logging to /cpt/rbase- 1.0.0/bin/. ./109s/tibase- hadoop- zookeeper 
— slave3.hadocp.out- 

slavel.hadocp: starting zookeeper, logging to /apt/tibase- 1.0. 0/bin/. . /109s/tibase- hadodp- zookeeper 
— slavel .hadocp.out 
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slave2.hadogp: starting zookeeper, logging to /opt/hibase- 1.0.0/bin/. ./1ogs/hibase- hadoop- zookeeper 
— Slave2.Hadocp.out 

starting master, logging to /cpt/rbase- 1.0.0/1ogs/hbase- hadogp- master- masterl.hadocp.out. 
Slave2.hadoop: starting regionserver, logging to /cpt/rbase- 1. 0. 0/bin/../logs/hbase - hadocp - 
regionserver- Slave? .Hadoop.out- 

Slavel.hadoop: starting regicnserver, logging to /cpt/hbase - 1.0. 0/bin/../logs/tbase - hadoop — 
regionserver- slavel.hadogp.out- 

slave3.hadoop: starting regionserver, logging to /cpt/hbase - 1. 0. 0/bin/../logs/hbase - hadoop — 


HBase 启动 成 功 后 ,可 以 通过 jps 命令 来 查看 启动 的 HBase 运行 ,在 Master 端 
HBase 所 启动 的 进程 和 Slave 端 HBase 所 启动 的 进程 如 图 7. 3 所 示 。 


[hadoop@slavel ~]$ jps 


[hadoop@master1 /]$ jps 

| 2472 NodeManager 
° SecondaryNameNode 7466 Jps 

2816 ResourceManager 2359 DataNode 


9335 Jps HQuorumPeer 
2485 NameNode 4 HRegionSery 


(a) Master 端 (b) Slave 端 
图 7.3 HBase 的 启动 进程 


从 图 7. 3 中 可 以 看 出 ,在 Master 端 和 Slave 端 启动 的 HBase 进程 与 表 7. 3 所 规划 的 
HBase 集群 相同 。 其 中 ,Masterl. Hadoop 中 启动 的 HBase 进程 为 HMaster; 在 Slavel. 
Hadoop 中 启动 的 HBase 进程 为 HQuorumPeer 和 HRegionServer。 同 理 , 在 Slave2. 
Hadoop 和 Slave3. Hadoop 中 的 HBase 进程 与 Slavel. Hadoop 中 HBase 进程 相同 。 读 
者 也 可 通过 HBase Master 基于 Web 的 UI 服务 查看 HBase 集群 的 当前 状态 ,如 图 7. 4 
所 示 。 


F [8 1916825105 q + 
ns =E 
HBASI 
Master mastert.hadoop 
Region Servers 
startime Requests Per Second Num. Regions 
Tue May 05 0447:00 EDT 2015 ° ° 
Tue May 05 0447.0 EDT 2015 o ° 
Tua May 05 044790 EDT 2015 ° 1 
Tue May 05 044701 EDT 2015 ° 1 
Tue May 05044791 EDT 2015 ° ° 


图 7.4 HBase Master 的 Web UI 界 面 
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HBase Master 默认 基于 Web 的 UI 服务 端口 为 16010, HBase HRegion 服务 器 默认 
基于 Web 的 UI 服务 端口 为 16030。 本 实例 的 HMaster 运行 在 Masterl. Hadoop 的 主机 
中 ,因此 HMaster 的 主页 地 址 就 是 http://masterl. hadoop:16010。 如 果 要 关闭 HBase 
集群 ,可 使 用 如 下 命令 。 


本 实例 HBase 集群 中 节点 数据 比较 少 , 启 动 和 关闭 等 待 时 间 比 较 短 ,如 果 集 群 节点 
数量 很 多 , 则 等 待 时 间 可 能 会 很 长 。 如 果 HBase 是 公布 式 运 行 模式 ,在 关闭 Hadoop 集 
群 之 前 一 定 要 确认 HBase 是 否 已 经 被 正常 关闭 了 。 


7.5 HBase 数据 模型 


HBase 不 是 一 个 关系 型 数据 库 , 因 此 需要 用 不 同 的 方法 来 定义 数据 模型 。HBase 是 
以 表 的 形式 存储 数据 的 , 表 由 行 和 列 组 成 , 列 又 被 划分 为 若干 个 列 族 / 列 簇 (Column 
Family) 组 成 , 列 簇 支持 动态 扩展 ,不 需要 预定 义 数 量 及 类 型 。 
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HBase 实际 上 定义 了 一 个 四 维 数据 模型 (RowKey 行 键 .Column Family 5i f , Cell 
Qualifier 列 修饰 符 和 Timestamp 时 间 截 ) 的 表 , 并 通过 HRegion 区 域 来 存储 数据 。 其 
中 ,HBase 中 的 表 可 以 有 上 亿 行 、 上 百 万 列 ;该 表 是 面向 列 的 存储 和 权限 控制 ;对 于 为 空 
的 列 并 不 占用 存储 空间 ;每 个 Cell Qualifier 中 的 数据 可 以 有 多 个 版 本 ,默认 情况 下 版 本 
号 是 自动 分 配 的 , 即 为 单元 格 插入 时 的 时 间 戳 : 表 中 的 数据 都 是 字符 串 , 没 有 类 型 。 
HBase 的 逻辑 视图 如 表 7.4 所 示 。 

从 表 7. 4 可 以 看 出 ,Keyl、Key2 和 Key3 是 三 条 记录 的 唯一 Row Key; Column 
Familyl, Column Family2 Æ P Â Fil £; Column Familyl 列 徐 下 包括 Columnl 和 
Column2 两 列 ,Column Family2 列 复 下 包括 Columnl、Column2 和 Column3 = ği); tl; 
hadoop 是 由 Row Keyl 和 Columnl- Familyl-Columnl 唯一 确定 的 一 个 单元 格 Cell, iZ 
单元 格 中 有 一 个 数据 为 hadoop, 其 中 tl 可 看 作 自动 分 配 的 版 本 号 。 
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37.4 HBase 逻辑 视图 


Column Family1 Column Family2 
Row Key Timestamp 
Columni Column2 Columni Column2 Column3 
tl hadoop kdf 
Keyl t8 hdfs ok 
t2 map sdf 
t4 hive dfkd 
Key2 t data 
t3 we efde 
t5 dí sdf 
Key3 
t6 dfa sdf 


1. Row Key 行 键 


在 HBase 表 中 ,每 行 都 有 一 个 唯一 的 Row Key, 是 表 中 每 条 记录 的 “主键 ", 该 行 键 没 
有 数据 类 型 ,可 以 使 用 任何 字符 串 (最 大 长 度 是 64KB) 作 为 行 键 。 对 于 表 中 的 行 , 可 以 根 
据 行 的 键 值 进行 排序 ,并 且 对 表 中 行 的 访问 都 需要 通过 键 值 ,可 以 通过 单个 Row Key 访 
问 、 通 过 Row Key 的 排序 访问 或 全 表 扫 描 的 访问 方式 。 


2. Column Family 5$% 


HBase 3 rP f) fj 9] ARII Jo J A: 4° 9E ffe «909 fs 4 LE J RERI C Schema) E X ñ) — iB) 
预先 给 出 ,如 create ColumnFamilyl' .'ColumnFamily2', HBase 表 中 的 列 名 以 列 簇 作为 
前 级 ,每 个 列 徐 都 可 以 有 多 个 列 成 员 , 如 ColumnFamilyl : Columnl, ColumnFamily2: 
Columnl1; 新 加 入 的 列 簇 成 员 可 以 随后 按 需 \ 动 态 加 入 ;同一 列 簇 的 数据 存储 在 同一 目录 
下 ,由 几 个 文件 保存 。HBase 对 表 的 权限 控制 ,存储 和 调 优 都 是 在 列 簇 层面 进行 的 , 即 同 
一 列 簇 成 员 有 相同 的 访问 模式 和 大 小 特征 。 


3. Cell Qualifier 列 修饰 符 


列 修饰 符 可 以 理解 为 实际 的 列 名 ,可 通过 * 列 复 : 列 修饰 符 ” 描 述 具 体 的 某 个 列 , 也 可 
通过 Client 端 随时 把 列 添加 到 列 簇 中 。 

4. Cell 单元 格 

HBase 中 通过 Row Key、Column Family 和 Column 唯一 确定 的 一 个 存储 单元 为 


Cell 单元 格 , 其 表示 形式 为 : (Row Key. Column (= < Family > + < Lable >), 
Timestamp}. Cell 单元 格 中 的 数据 是 没有 类 型 的 ,全 部 是 字 节 码 形式 存储 的 。 
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5. Timestamp Rý lš] Ek 


HBase 表 中 的 Cell 单元 格 中 保存 着 同一 份 数据 的 多 个 版 本 ,版 本 号 默认 情况 下 是 单 
元 格 搬入 时 的 时 间 戳 (精确 到 毫秒 的 当前 系统 时 间 )。HBase 可 根据 唯一 的 时 间 戳 来 区 
分 每 个 版 本 之 间 的 差异 。 时 间 戳 也 可 以 由 用 户 显 式 赋值 ,此 时 要 注意 生成 的 值 要 具有 唯 
一 性 ,从 而 避免 数据 版 本 冲突 。 
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表 7.4 为 HBase 中 的 一 个 虚 表 , 仅 是 一 个 概念 视图 ,并 不 是 真实 的 存储 形式 ,实际 上 
表 7.4 在 HBase 中 是 按 列 簇 进行 存储 的 ,每 一 个 列 簇 为 一 个 Store, 比 如 表 7. 4 在 HBase 
中 的 实际 存储 形式 如 图 7.5 所 示 。 


Row Key Timestamp Clumn Familyl Row Key Timestamp Clumn Family2 
tl Columnl: hadoop tl Column1: kdf 
Keyl t8 Columnl: hdfs Keyl t8 Columnl: ok 
t2 Column1: map o Column2: sdf 
(a) (b) 
Row Key Timestamp Clumn Family 
t4 Column2: hive Row Key Timestamp Clumn Family2 
Key2 U Column2: data u Column3: dfld 
Key2 
83 Column2: we t3 Column2: efde 
(e) (d) 
Row Key Timestamp Clumn Family Row Key Timestamp Clumn Family2 
t5 Column1: df t5 Column1: sdf 
Key3 Key3 
t6 Columnl: dfa t6 Column2: sdf 
(e) (0 


Ed 7.5 HBase 中 表 7.4 的 实际 存储 形式 


从 图 7. 5 中 可 以 看 出 ,HBase 是 面向 列 (Column-Oriented) 的 存储 机 制 ,每 一 个 列 簇 
都 为 单独 的 一 张 表 , 表 7.4 有 三 个 Row Key. Bl Keyl、Key2 和 Key3, 并 有 两 个 列 复 ,在 
HBase 中 存储 时 就 存 为 6 张 表 ,这 里 需要 注意 的 是 对 于 内 容 为 空 的 列 不 进行 存储 。 
图 7.5(a) 为 Row Key 为 Keyl. 7145 7j Column Familyl 的 表 ,Timestamp 值 为 数据 的 版 
本 ;图 7.5(b) 为 Row Key 为 Keyl , 列 篮 为 Column Family2 的 表 ; 图 7.5(c) 为 Row Key 
为 Key2 , 列 得 为 Column Familyl 的 表 ; 图 7.5(d) 为 Row Key 为 Key2. Pil f Jy Column 
Family2 的 表 ; 图 7. 5(e) 为 Row Key 为 Key3. 9f Column Familyl 的 表 ; 图 7. 5(f) 为 
Row Key 为 Key3.#/IJ#& Jy Column Family2 的 表 。 
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7.6 HBase 关键 技术 


HBase 是 一 个 分 布 式 的 、 多 版 本 的 、 面 向 列 的 开源 数据 库 , 利 用 Hadoop HDFS 作为 
其 文件 存储 系统 ,通过 一 系列 的 关键 技术 提供 了 高 可 靠 性 、 高 性 能 、 列 存储 、 可 伸缩 、 实 时 
读 写 的 数据 库 系统 。 
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当 Client 端 在 进行 数据 读 写 操作 请 求 时 ,Client 本 身 并 不 知道 哪个 HRegionServer 
管理 哪个 HRegion ,都 需要 经 过 HRegion 的 定位 来 确定 Client 端 所 需要 的 数据 到 底 在 哪 
个 HRegionServer 上 ,并 由 HRegionServer 实现 数据 的 读 写 操作 。HRegion 的 定位 过 程 
主要 涉及 HBase 内 置 的 两 张 表 *“-ROOT-" 表 和 “. META” 表 。 其 中 ,“. META” 表 包含 所 
有 的 用 户 空 间 区 域 列表 及 HRegionServer 的 服务 器 地 址 ,. META 可 以 有 多 个 HRegion; 
“-ROOT-" 表 包含 . META 表 所 在 的 区 域 列表 ,用 来 查询 所 有 . META 表 中 HRegion 的 位 
置 ,-ROOT- 只 有 一 个 HRegion。 从 存储 结构 和 操作 方法 角度 来 说 ,这 两 张 表 与 其 他 
HBase 的 表 没 有 任何 区 别 , 对 普通 表 的 操作 都 可 应 用 于 这 两 张 表 ,并 且 这 两 张 表 的 表 结 
构 相 同 ,如 表 7.5 所 示 。 


表 7.5 “-ROOT-”" 和 “. META” 表 结构 


RowKey Info Historian 
TableName RegionInfo Server Serverstartcode 

StartKey StartKey, EndKey Yes 
TimeStamp Family List "ees 


从 表 7.5 中 可 以 看 出 ,RowKey 为 HRegion 的 Name. 由 TableName, StartKey 和 
TimeStamp 三 部 分 组 成 ,这 三 部 分 用 逗号 连接 就 构成 了 整个 RowKey, 如 一 个 RowKey 
的 示例 如 下 。 


Tablel, RK10000, 12123132 


表 7.5 中 info 包含 RegionInfo、Server 和 Serverstartcode。 其 中 ,RegionInfo 里 包括 
StartKey、EndKey 及 每 个 Family 的 信息 等 ;Server 存储 的 是 管理 这 个 HRegion 的 
HRegionServer 地 址 。HRegion 的 定位 使 用 三 层 类 似 于 B 十 树 的 结构 来 定位 HRegion 位 
置 : 第 一 层 是 ZooKeeper 中 包含 的 RootRegion( 只 有 一 个 ,不 进行 拆 分 ) 位 置信 息 的 节 
点 ;第 二 层 是 从 -ROOT- 表 中 查找 对 应 Meta Region 的 位 置 ;第 三 层 是 从 . META RPE 
找 用 户 表 对 应 的 HRegion 的 位 置 ,HRegion 的 具体 定位 过 程 如 图 7.6 所 示 。 

(1) Client 端 首先 连接 到 ZooKeeper 管理 的 集群 ,并 查询 ZooKeeper 中 -ROOT- 表 ， 
ZooKeeper 告诉 Client 端 -ROOT- 表 中 HRegion 在 哪个 HRegionServer 上 ,这 里 假定 
-ROOT- 表 中 的 HRegion 在 RegionServer R 上 。 
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[Regionserver M If] 
META. , tableN, 1299064675539 | RegionServer M | 


|tableA, , 1299060973729 .C1347896b. ..372C927f6e- [Regionserver u: [| 
tables, row- 234, 1299064675539. b3d684. . .ba098d. 


tableN, , 129908942417. g1233ef . . .3722ce1278e. 
[t 


ableN,row- 189 , 129943432839. h3f3a4. . .834d8d. 


图 7.6 HRegion 定位 过 程 
(图 片 来 源 : 来 自 参考 文献 [81]) 


(2) Client 获得 HRegionServer 的 Name 之 后 ,再 向 RegionServer R 发 起 查询 某 行 
的 . META 的 HA 的 HRegion 可 在 某 HRegionServer 上 找到 ,并 将 查询 结果 缓存 到 
Client 端 。 

(3) Client 端 再 向 某 HRegionServer 上 的 . META 查询 某 行 的 数据 在 哪个 HRegion 
上 ,并 查询 哪个 HRegionServer 可 以 提供 服务 ,并 将 查询 结果 缓存 到 Client 端 , 从 而 完成 
了 HRegion 定位 。 

如 果 读 者 想 详细 了 解 HRegion 的 定位 过 程 , 可 以 阅读 HBase 项 目 中 
HConnectionManager 这 个 类 ,类 中 给 出 了 locateRegion() 方 法 ,该 方法 实现 了 HRegion 
的 定位 ,其 关键 代码 如 下 。 


private HRegicnLocaticn locateRegion (final TableName tableName, 
final byte [] row, boolean useCache, boolean retry)( 
if(tableName.equals (TableName.META TABIE NAME))( 
retur this.registry.getMetaFegionLocation|() ; 
} else ( 
//Pegion not in the cache- have to go to the meta RS 
retum locateFegionImMeta (TableName. META — TEE — NAME, tableName, row, useCade, 
userRegionLock, retry); 
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) 


其 中 ,TableName. META TABLE NAME 就 是 -ROOT- 表 ,在 HBase 0. 96 版 本 里 
面 它 已 经 被 取消 了 ,取而代之 的 是 META 表 中 的 第 一 个 regionHRegionInfo. FIRST |. 
META_REGIONINFO, 它 位 置 在 ZooKeeper 的 meta-region-server 节点 当中 。 如 果 需 
要 查询 的 信息 在 缓存 中 ,可 直接 访问 相应 的 HRegion, 和 否则 就 要 经 过 (1) 一 (3) 过 程 , 即 
locateRegionInMeta() 方 法 的 实现 过 程 。 

i£: 从 HBase 0. 96 版 本 开始 , -ROOT- 表 已 经 改名 为 hbase:namespace,. META 则 
是 hbase:meta, 如 果 读 者 想 了 解 更 多 的 细节 ,请 阅读 HBASE-8015 文档 (https://issues. 
apache. org/jira/browse/ HBASE-8015) 。 
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HRegion 是 HBase 实际 存储 数据 的 区 域 ,其 默认 的 HRegion 的 大 小 为 64MB。 
HBase 中 每 个 表 一 开始 只 有 一 个 HRegion, 随 着 数据 不 断 地 插入 表 中 ,HRegion 不 断 增 
大 , 当 增 大 到 某 个 阔 值 时 , HRegion 会 迅速 自动 分 裂 成 两 个 HRegion, 并 且 这 两 个 
HRegion 先 会 保存 对 原 HRegion 的 引用 , 当 这 两 个 新 HRegion 数据 拆 分 结束 后 ,再 将 此 
引用 去 掉 , 并 删除 原 有 HRegion。 当 表 中 行 不 断 增多 时 , HRegion 数据 也 会 逐渐 增多 。 
HRegion 自动 分 裂 过 程 9 如 图 7.7 所 示 。 

图 7.7 给 出 了 HRegion 自动 分 裂 过 程 ,其 中 红色 线 代 表 HRegionServer 和 HMaster 
的 行为 ,绿色 线 代 表 Client 行为 。HRegion 具体 分 裂 过 程 如 下 。 

(D HRegionServer 决定 本 地 的 HRegion 是 否 需 要 分 裂 , 如 果 需 要 分 裂 , 则 准备 分 裂 
工作 : 在 ZooKeeper ff] /hbase/region-in-reansition/region-name 下 创建 一 个 ZNode, 并 
设 为 SPLITTING 状态 。 

(2) HMaster 通过 父 region-in-transition znode 的 watcher 监测 到 刚刚 创建 的 
ZNode。 

(3) HRegionServer 在 HDFS 中 RootHRegion 的 目录 下 创建 名 为 “. split” 的 子 目 录 。 

(4) HRegionServer 关闭 RootHRegion, 并 强制 刷新 缓存 内 的 数据 ,并 在 本 地 数据 结 
构 中 将 标识 改 为 下 线 状态 ,如 果 此 时 Client 正好 发 送 对 RootHRegion 的 请 求 ,将 会 抛 出 
NotServingRegionException 异常 ,Client 将 重新 尝试 向 其 他 的 HRegion 发 送 请 求 。 

(5) HRegionServer 在 . split 目录 下 为 子 HRegionA 和 HRegionB 创建 目录 和 相关 
的 数据 结构 ,然后 HRegionServer 分 割 Store 文件 (为 RootHRegion 的 每 个 Store 文件 创 
建 两 个 Reference 文件 ,这 些 Reference 文件 将 指向 RootHRegion 中 的 文件 ) 。 

(6) HRegionServer 在 HDFS 中 创建 实际 的 HRegion 目录 ,并 移动 每 个 子 HRegion 
的 Reference 文件 。 

(7) HRegionServer 向 . META 表 发 送 Put 请 求 ,并 在 . META 中 将 HRegion 改 为 下 
线 状 态 ,添加 子 HRegion 的 信息 ,此 时 表 中 单独 存储 没有 子 HRegion 信息 的 条 目 。 
Client 扫描 . META 表 时 查看 RootHRegion 为 分 裂 状态 ,但 直到 子 HRegion 信息 出 现在 


C» 深入 浅 出 大 数据 


META Region 


/hbase/region-in-transition/parent_region_name:SPLITTING 
/hbase/region-in-transition/parent_region_name:SPUT 


-parent_region_name/column_family/hfiles 
-yparent_region_name/.splits/ 
-parent_region_name/.splits/daughterA 
-parent_region_name/.splits/daughterB/column_family/reference_files 
...[daughterA/column family/reference files 


7.7 HRegion 自动 分 裂 过 程 
(图 片 来 源 : 来 自 参考 文献 [82]) 


表 中 ,Client 才 知 道 它们 的 存在 。 如 果 Put 请 求 成 功 ,那么 RootHRegion 将 被 有 效 地 分 
割 ; 如 果 在 这 条 RPC 成 功 之 前 出 现 HRegionServer 异常 ,那么 HMaster 和 打开 HRegion 
的 下 一 个 HRegionServer 会 清理 关于 该 HRegion 分 裂 的 状态 ,并 在 . META 表 更 新 之 
后 ,HRegion 的 分 裂 将 被 HMaster 回 滚 到 之 前 的 状态 。 

(8) HRegionServer 打开 HRegion ,并 行 地 接受 写 请 求 。 

(9) HRegionServer 将 子 HRegionA 和 HRegionB 的 相关 信息 写 入 . META 表 之 后 ， 
Client 便 可 以 扫描 到 新 的 HRegion ,并 且 可 以 向 其 发 送 请 求 。 

(10) HRegionServer 将 ZooKeeper 中 的 ZNode /hbase/region-in-transition/region- 
name 更 改 为 SPLIT 状态 ,以便 HMaster 可 以 监测 到 ,如 果子 HRegion 被 选中 ,Balancer 
可 以 自由 地 将 子 HRegion 分 派 到 其 他 HRegionServer 上 。 

最 后 ,HRegion 分 裂 之 后 ,元 数据 和 HDFS 中 依然 包含 着 指向 RootHRegion 的 
Reference 文件 ,这 些 Reference 文件 将 在 子 HRegion 发 生 紧缩 操作 重 写 数 据 文件 时 被 删 
除 掉 ,HMaster 的 垃圾 回收 工会 周期 性 地 检测 是 否 还 有 指向 RootHRegion 的 Reference. 
如 果 没 有 ,将 删除 RootHRegion。 

在 HBase 0. 94 版 本 之 前 ,HRegion 的 分 裂 策 略 采 用 ConstantSizeRegionSplitPolicy , 
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如 果 要 关闭 HRegion 的 自动 分 裂 , 只 需要 将 配置 文件 中 的 hbase. hregion. max. filesize 
设置 为 一 个 超大 值 。 在 HBase 0. 94 版 本 之 后 , HRegion 的 默认 分 裂 策 略 是 
IncreasingToUpperBoundRegionSplitPolicy, 这 个 策略 的 核心 思想 是 当 HRegion 的 大 小 
超过 某 个 国 值 时 , HRegion 就 进行 自动 分 裂 。 这 个 国 值 主要 由 hbase. hregion. max. 
filesize, hbaase. increaing. policy. initial. size 和 当前 在 一 个 HRegionServer 中 同一 个 表 的 
HRegion 数量 个 数 有 关 。 如 果 读 者 希望 实现 自己 的 HRegion 分 裂 策略 ,首先 需要 继承 
RegionSplitPolicy, 再 实现 shouldSplit ( ) getSplitPoint ( ) 方法 和 HRegionServer 的 
splitRegion() 方 法 等 。 
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HBase 读 写 数据 过 程 都 是 由 HRegionServer 负责 的 , HRegionServer 一 方面 与 
Client 进行 交互 ,负责 处 理 用 户 的 读 写 请 求 ,提供 对 HRegion 的 管理 和 服务 ; 另 一 方面 与 
HMaster 进行 交互 ,上 传 HRegion 的 负载 信息 ,参与 HMaster 的 分 布 式 协调 管理 。 因 
此 ,HBase 的 数据 读 写 过 程 涉及 HRegionServer, HMaster, HRegion 和 Clients HP, 
HRegionServer 是 HBase 中 读 写 数据 的 核心 , 主要 负责 响应 用 户 的 1/O 请 求 ,并 向 
HDFS 文件 系统 中 读 写 数据 。HRegionServer 与 HMaster 之 间 通 过 RPC 通信 协议 进行 
通信 ,在 此 过 程 中 HMaster 扮演 了 RPC Server 的 角色 , HRegionServer 扮演 了 RPC 
Client 的 角色 ,主要 负责 定期 向 HMaster 汇报 自身 的 内 存 使 用 状态 .HRegion 在 线 状 态 
等 信息 。HRegionServer 与 Client/HRegion 之 间 也 是 采用 RPC 通信 协议 进行 通信 ,在 
此 过 程 中 Client/HRegion 扮演 RPC Client 角色 ,而 HRegionServer 扮演 RPC Server ffi 
色 ,主要 负责 数据 更 新 . 读 取 删除 . 写 和 等 操作 。HBase 的 读 写 过 程 如 图 7. 8 所 示 。 


Roffer 


' (NN 
(MemStore) Store 
: . > 一 一 
' HRegion StoreFile] (StoreFile) ... 
H HFile HFile 
E La — B. = 
' b 
1 5 
pl MemStore) Store 
: i š i Raig 
Client ' Bb HRegion StorcFile 
1 名 HFile 
wo mmm 
-delete() i MemStore Store 
: 1 
-iner() ! nan» HRegion fStoreFile (StoreFile E 
t Log HFile HFile 
' Syncer — 
' 
' 
' Sync() 
' 
' 
' 
' aas 


HLog | 
m Writer | EEEEEEEEEEEEEREEEEEEEEHEHEEHH 


图 7.8 HBase 的 读 写 过 程 


用 户 使 用 HBase 写 入 或 更 新 数据 的 整个 过 程 如 下 。 
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(1) Client 向 HRegionServer 启动 一 个 操作 来 进行 写 和 或 更 新 数据 操作 ,如 put OO 
请 求 。 

(2) Client 端 每 次 对 数据 的 修改 都 封装 到 一 个 KeyValue 对 象 实例 中 ,通过 RPC 调 
用 (含有 匹配 的 HRegion 的 HRegionServer) 发 送 给 HRegionServer。 

(3) HRegionServer 收 到 KeyValue 实例 后 ,KeyValue 会 被 分 配 到 对 应 的 HRegion 
实例 ,并 将 数据 写 人 到 HLog 中 (WAL 存储 格式 ), 然 后 再 放 入 实际 拥有 记录 的 
MemStore 中 。 

(4) 当 MemStore 达到 一 定 大 小 或 经 历 某 个 特定 时 间 时 ,数据 会 异步 连续 写 入 到 
HFile 中 。 

为 了 防止 在 数据 写 入 过 程 中 ,存储 在 内 存 中 的 数据 没 来 得 及 保存 到 磁盘 而 造成 的 数 
据 丢失 情况 ,HBase 使 用 WAL 格式 的 日 志 HLog 存储 在 HDFS 上 。 当 HRegionServer 
出 现 异常 时 ,其 他 HRegionServer 也 可 以 读 取 日 志文 件 并 回放 修改 ,从 而 恢复 数据 ,并 能 
保证 数据 不 丢失 。 

当 用 户 使 用 HBase 读 取 数 据 时 ,如 果 所 要 读 取 的 数据 所 在 的 HRegionServer Hb hl: fE 
Cache 缓存 中 时 ,Client 端 可 以 直接 定位 到 该 HRegionServer, 然后 直接 在 该 
HRegionServer 的 某 个 HRegion 上 查找 到 匹配 的 数据 。 和 否则 HBase 的 读数 据 流程 需要 
经 过 以 下 过 程 。 

(D Client 从 ZooKeeper 获取 . META 所 在 的 HRegionServer 地 址 ; 

(2) 根据 RowKey 查询 所 在 的 HRegion, 获 得 HRegion 所 在 的 HRegionServer 地 址 ; 

(3) Client 连接 该 HRegionServer, 从 而 查找 到 匹配 的 数据 。 

HBase 的 顺序 读 取 速 度 非常 快 ,这 是 由 架构 本 身 和 底层 的 数据 结构 共同 决定 的 , 即 
由 LSM-Tree(Log-Structured Merge-Tree) , HRegion 分 区 和 Cache 缓存 共同 决定 。 其 
中 ,LSM 树 状 结构 相 比 B/B 十 树 而 言 ,磁盘 的 顺序 读 取 速度 很 快 ;HBase 读 取 数 据 首先 会 
在 Cache 缓存 中 采用 LRU (最近 最 少 算法 ) 查 找 ,如 果 缓 存 中 没有 找到 ,会 从 内 存 中 的 
MemStore 中 查找 ,只 有 这 两 个 地 方 都 没有 找到 时 , 才 会 加 载 HFile, 某 种 程度 上 也 减少 和 
节省 了 寻 道 时 间 的 开销 。 因 此 ,HBase 的 顺序 读 取 速 度 非常 快 。 
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HBase 本 身 是 由 Java 编写 的 ,因此 HBase 服务 器 端 需要 JVM 的 支持 ,但 是 对 于 客 
户 端 来 说 ,不 仅 可 以 通过 使 用 Java 客户 端 API 和 HBase 附带 的 函数 库 与 HBase 进行 交 
互 ,HBase 还 提供 了 其 他 不 使 用 Java 的 客户 端 与 HBase 进行 交互 ,如 HBase Shell, 
HBase Thrift, REST Gateway, MapReduce, Hive 和 Pig 等 方式 与 HBase 交互 。 其 中 ， 
Native Java API 是 一 种 最 常规 和 高 效 的 访问 方式 ,适合 于 Hadoop MapReduce Job 并 行 
批 处 理 的 HBase 表 数 据 ; HBase Shell 为 HBase 的 命令 行 工具 ,最 简单 的 接口 ,适合 
HBase 管理 使 用 ;HBase Thrift 是 利用 Thrift 序列 化 技术 ,支持 C++ PHP, Python 等 多 
种 语言 ,适合 其 他 异 构 系统 在 线 访问 HBase 表 数 据 ;REST Gateway 支持 REST 风格 的 
HTTP API 访问 HBase, 解 除了 语言 限制 ;MapReduce 可 直接 使 用 MapReduce 作业 处 理 
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与 HBase 交互 ; Hive 相当 于 传统 的 数据 仓库 ,使 用 类 似 SQL 语言 来 访问 HBase; Pig 是 
一 种 可 使 用 Pig Latin 流 式 编程 语言 来 操作 HBase 中 的 数据 ,适合 做 数据 统计 。 下 面 介 
绍 两 种 比较 常用 的 与 HBase 交互 的 方式 。 
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Native Java API 是 比较 常用 的 与 HBase 进行 交互 的 一 种 方式 ,这 种 方式 需要 在 集群 
中 创建 Java 项 目 , 并 调用 HBase 的 API 来 操作 HBase, 主 要 涉及 对 HBase 的 创建 表格 、 
删除 表格 、 插 入 数据 、 删 除数 据 、 查 询 数据 等 操作 。Native Java API 操作 的 具体 流程 包括 
创建 项 目 、 获 取 jar 包 到 项 目的 lib 目录 下 (一 般 将 HBase 的 lib 目录 下 的 所 有 jar 包 添 加 
到 项 目 工程 目录 lib 下 ) 和 编写 Java 程序 等 过 程 。 下 面 重点 介绍 如 何 通过 编写 Java 应 用 
程序 与 HBase 进行 交互 。 要 编写 Java 应 用 程序 与 HBase 进行 交互 ,首先 要 了 解 HBase 
的 数据 模型 与 Native Java API 类 之 间 的 对 应 关系 (如 表 7. 6 所 示 )。 


37.6 HBase 数据 模型 与 Java 类 之 间 的 对 应 关系 


Java 类 HBase 数据 模型 

HBaseAdmin 
DataBase( 数 据 库 ) 

HBaseConfiguration 
HTable Table( 表 ) 
HTableDescriptor Column Family (3 f& ) 
Put 
Get Column Qualifier( 列 修饰 符 ) 
Scan 


注 : # X HBaseAdmin, HBaseConfiguration, H Table, H TableDescriptor, Put, Get, 
Scan 等 类 的 详细 说 明和 用 法 ,请 查看 HBase APIChttp: //hbase. apache. org/apidocs/ 


overview-summary. html) 。 
1. HBaseConfiguration 


HBaseConfiguration 主要 用 于 对 HBase 进行 配置 。HBaseConfiguration 提供 的 具 
体 方法 及 说 明 如 表 7.7 所 示 。 
表 7.7 HBaseConfiguration 提供 的 方法 


返回 值 方 È do xk 
addResource( Path file) 通过 给 定 路 径 所 指 的 文件 添加 资源 
clear() 清空 所 有 已 设置 的 属性 


void set(String name, String value) 通过 属性 名 来 设置 值 


setBoolean(String name, boolean 


设置 boolean 类 型 的 属性 值 


value) 
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ET 
返回 值 方 法 描 述 
getBoolean(String name，boolean | 获取 为 boolean 类 型 的 属性 值 , 如 果 其 属性 值 类 型 不 为 
String defaultValue) boolean, 则 返回 默认 属性 值 
get(String name) 获取 属性 名 对 应 的 值 


HBaseConfiguration 的 用 法 如 下 所 示 。 


HBaseConfiguration config- new HBaseConfiguration (); 

// 可 以 自 定义 配置 ,也 可 以 从 自 定义 配置 文件 中 读 取 

/* config.set ("hbase.zookeeper.property.clientPort", "2181"); 

onfig.set ("hoase.zookeeper.quorum", "Slavel.Hadoop, Slave? .Hadoop, Slave3.Hadoop") ; 
config.set ("Hbase.master", "Masterl.Hadogp NN :600000") ; * / 


2. HBaseAdmin 


HBaseAdmin 提供 了 一 个 接口 来 管理 HBase 数据 库存 的 表 信 息 , 如 创建 表 、 删 除 表 、 
列 出 表 项 \ 使 表 有 效 或 无 效 、 添 加 或 删除 表 列 簇 成 员 等 。HBaseAdmin 提供 的 具体 方法 如 
* 7.8 所 示 。 
表 7.8 HBaseAdmin 提供 的 方法 
返回 值 J ”法 # g 


addColumn (String tableName, 
HColumnDescriptor column) 


对 已 经 存在 的 表 添 加 列 


checkHBaseAvailable 


(HBaseConfiguration conf) 查看 HBase 是 否 处 于 运行 状态 


createTable ( HTableDescriptor 
desc) 


创建 一 个 表 , 同 步 操作 


vod deleteTable(byte[ ] tableName? 删除 一 个 已 经 存在 的 表 
enableTable(byte[] tableName) | 使 表 处 于 有 效 状 态 
disableTable(byte[ ] tableName) | 使 表 处 于 无 效 状态 
modifyTable(byte[] tableName, | 修改 表 模 式 ,异步 操作 ,可 能 需要 花费 一 定 的 
HTableDescriptor htd) 时 间 
HTableDescriptor | listTables() 列 出 所 有 用 户 控件 表 项 
boolean tableExists(String tableName) | 检查 表 是 否 存在 


HBaseAdmin 的 用 法 如 下 所 示 。 


HBaseAcmin admin= new HBasezciin (config) ; 
// 创 建 表 
HrableDescriptor htd- new HTableDescriptor (tableName) ; 


EI FETERE E QI 


htd.addFami ly (new HoolummDescriptor ("c£1")) ; 
htd.addkami ly (new HcolumnDescriptor ("cf£2") ) ; 
acmin.createTable (htd); 

// 修 改 表 信 息 

admin.disableTable(tableName)7 

7 Ee Erni 
admin.modi fyColum (tableName, new HIolumnDescriptor ("name") ) ; 
admin.enableTable (tableName) ; 

/删除 表 
admin.disableTable (Bytes .toBytes (tableName))7 
admin.deleteTable (Bytes .toBytes (tableName) ) ; 


3. HTableDescriptor 


H TableDescriptor H T HEP 91 f fr; £& . A R À 5 Fe Ai t wt 56 8 26 fE D HER Og 
表 添 加 列 簇 时 使 用 。 有 关 HTableDescriptor 提供 的 具体 方法 及 说 明 如 表 7. 9 所 示 。 


表 7.9 HTableDescriptor 提供 的 方法 


返回 值 5 È 描 xk 

byte[] getName() 获取 列 篮 的 名 字 
getValueCbyte[ ] key) 获取 对 应 的 属性 的 值 

void setValue(String key, String value) 设置 对 应 属性 的 值 


HTableDescriptor 的 用 法 如 下 所 示 。 


// 添 加 一 个 content 列 簇 
HTableDescriptor htd- new HTableDescriptor (tablename) ; 
HoolumDescriptor col- new HOolumDescriptor ("content:"); 
htd.addFami ly (c01) ; 


4. HTable 


HTable 主要 用 于 和 HBase 直接 交互 ,如 获取 值 和 表 名 、 检 查 表 是 否 有 效 、 向 表 中 添 
加 值 等 操作 。 有 关 HTable 所 提供 的 具体 方法 及 说 明 如 表 7. 10 所 示 。 


表 7.10 HTable 提供 的 方法 
返回 值 5 法 f g 


N kn ] piss E ps ] 自动 检查 row/family/qualifier 是 否 与 
amily，byte[] qualifier，byte[] values | 给 定 的 值 匹配 


. Put put) 
void w 释放 所 有 的 资源 或 挂 起 内 部 缓冲 区 中 
close 的 更 新 


put(Put put) 向 表 中 添加 值 
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续 表 
返回 值 方 法 描 述 
Boolean exists(Get ge) iit s e: T SESNESEET 
Result get(Get get) 获取 指定 行 某 些 单元 格 所 对 应 的 值 
结 
byte 1] getEndKeysO 获取 当前 已 打开 的 表 每 个 区 域 的 结束 
键 值 
ResultScanner getScanner(byte[ ] family) 获取 当前 给 定 列 簇 的 scanner 实例 


HTableDescriptor 


getTableDescriptor() 


获取 当前 表 的 HTableDescriptor 实例 


byte[] 


getTableName() 


获取 表 名 


static boolean 


isTableEnabled 
conf，String tableName) 


( HBaseConfiguration 


检查 表 是 否 有 效 


void 


put(Put put) 


向 表 中 添加 值 


H Table 的 用 法 如 下 所 示 。 


Scan scan- new Scan() ; 
scan.addcolum (Bytes.tcBytes ("cf") , Bytes .toBytes ("attr") ) ; 
scan.setStartRow (Bytes.toBytes ("row") ) ; 


scan. setStopRow (Bytes .tcBytes ("row"+ 


(char)0)); 


ResultScanner rs= htable.getScanner (scan) ; 


try ( 


for (Result r-rs.next(); r !=nu11; r= rs.next () ) ( 
//process result... 


) finally ( 


rs.close(); 


n 


5. Put 


//instantiate HTable 


//start key is inclusive 


//stop key is exclusive 


//always close the ResultScanner! 


Put 用 来 对 单个 行 执行 添加 操作 ,有 关 Put 所 提供 的 具体 方法 及 说 明 如 表 7. 11 所 示 。 


表 7.11 Put 提供 的 方法 
返回 什 $5 法 # 述 
pda Pytel ] family» byte] qualifier | 将 指定 的 列 和 对 应 的 值 添加 到 Put 实 例 中 
yte[] value) 
Put add byte C] family, bytel] qualifier, | 将 指定 的 列 和 对 应 的 值 及 时 间 蕉 添加 到 


long ts, byte[] value) 


Put 实例 中 


setTimeStamp(long timeStamp) 


设置 Put Sc fJ BJ EST [8] R 


EIE SANE Hus QST 


续 表 
返回 值 方 法 描 述 
byte[ J getRow() 获取 Put 实例 的 行 
RowLock | getRowLock() 获取 Put 实例 的 行 锁 
long getTimeStamp() 获取 Put 实例 的 时 间 截 
boolean isEmpty() 检查 familyMap 是 否 为 空 
Put 的 用 法 如 下 所 示 o 


// 向 表 tablename 添 加 family,qualifier,value 指 定 的 值 
HTable table- new HTable (conf, Bytes.toBytes (tablename)) ; 


Put put- new Put (rowkey) ; 
put.acd(family,qualifier,value); 
table.put (put); 


6. Get 


Get 用 来 获取 对 单个 行 执行 添加 操作 ,有 关 Get 提供 的 具体 方法 及 说 明 如 表 7. 12 


所 示 o 
表 7.12 Get 提供 的 方法 
返回 值 方 法 描 述 
addColumn(byte[] family, byte[ ] qualifier) | 获取 指定 列 徐 和 列 修饰 符 对 应 的 列 
addFamily(byte[] family) 通过 指定 列 篮 获取 其 对 应 的 所 有 列 
Get 本 ( long minStamp, long 获取 指定 列 的 版 本 号 
setFilter(Filter filter) 当 执 行 Get 操作 时 设置 服务 器 端的 过 滤器 


Get 的 用 法 如 下 所 示 。 


/获取 tablename 表 中 row 行 的 对 应 数据 
Hrable table= new HTable (config, Bytes.tcBytes (tablename)); 
Get. get- new Get (Bytes.toBytes (row) ) ; 
Result result- table.get (get) ; 


7. Scan 


Scan 用 来 查询 表 的 相关 信息 及 数据 ,有 关 Scan 提供 的 具体 方法 及 说 明 如 表 7. 13 


所 示 。 
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37.13. Scan 提供 的 方法 


返回 值 方 法 描 述 
addFamily() 从 指定 列 艇 中 查询 所 有 列 
addColumn() 查询 指定 列 簇 的 某 列 
setMaxVersions() 指定 最 大 的 版 本 个 数 
setTimeRange() 指定 最 大 的 时 间 惟 和 最 小 的 时 间 截 
Scan setTimeStamp() 指定 时 间 截 
setFilter() 指定 Filter 来 过 滤 掉 不 需要 的 信息 
setStartRow() 指定 开始 的 行 
setStopRowO 指定 结束 的 行 (不 含 此 行 ) 
setBatch() 指定 最 多 返回 的 Cell 数目 


Scan 的 用 法 如 下 所 示 。 


/获取 tablename 表 中 row 行 的 对 应 数据 

Hrable table- (HTable)getHTablePool () .getTable (tablename)7 

Scan scan- new Scan()7 

scan.setMaxVersions () ; 

/指定 最 多 返回 ce 数目 ,防止 一 行 中 有 过 多 的 数据 ,导致 outofMemory 错 误 
scan.setBatch (1000) ; 

//scan. setTimeStanp (NunberUti 1s. taLong ("1234567890") ) ; 
//scan.setTimeRange (NurberUti 1s. toLong ("1234567890") , 

NarberUtils.toLong ("1370336337163") ) ; 
//scan.setStartFow (Bytes .toBytes ("'startRow") ) ; 

//scan. setStopRow (Bytes .toBytes ("storRow") ) ; 

//scan.ackiFami ly (Bytes. toBytes ("family") ) ; 

//scan.addcolum (Bytes.toBytes (family), Bytes.toBytes (colum) ) ; 

/查询 family P f ,#| colum 值 为 1 的 记录 

/方法 一 单个 查询 ) 

//Filter filter= new SingleColumValueFilter ( 

/[Bytes..tcBytes ("family") ,Bytes.tcBytes ("colum") ,CamareOp.EQUAL, Bytes tcBytes ("1")); 
//scan.setFilter(filter); 


有 关 Native Java API 5 HbBase 的 交互 实现 .请 查看 本 书 配套 资料 中 
HadoopWorksapces 文件 夹 下 的 HBase 项 目 , 该 项 目 首先 通过 HBase API 创建 一 个 名 为 
user 的 表 , 该 表 中 有 两 个 列 簇 为 name 和 article,name Ji] ffi name 和 nickname 两 个 列 . 
article #IJ#& fj title、content 和 tag 三 个 列 。 通 过 HBase API 对 user 表 进 行 添加 数据 、 根 
据 rowkey 查询 .遍历 查询 user 表 、 更 新 表 中 的 某 一 列 .删除 指定 的 列 、 删 除 表 等 操作 。 请 
读者 认真 阅读 源码 ,并 理解 和 学 会 使 用 HBase API 创建 表 、 删 除 表 、 记 录 信 息 的 增删 查 改 
等 操作 。 
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772 HBase Shall 


HBase Shell 是 基于 Ruby Shell 实现 的 ,是 HBase 集群 的 命令 行 接口 ,用户 可 以 使 用 
Shell 访问 本 地 或 远程 服务 器 并 与 其 进行 交互 ,而 且 Shell 还 提供 了 Client 端 和 管理 功能 
的 操作 。HBase Shell 常用 的 操作 命令 如 表 7. 14 所 示 。 


表 7.14 HBase Shell 常用 命令 


Shell 命令 


名 R 


create 


创建 表 


describe 


显示 表 相 关 的 详细 信息 


count 


统计 表 中 行 的 数量 


alter 


LIC i k 


delete 


删除 指定 表 / 行 / 列 对 应 的 值 


deleteall 


删除 指定 行 的 所 有 元 素 


disable 


使 表 无 效 


drop 


删除 表 


enable 


使 表 有 效 


exists 


测试 表 是 否 存在 


exit 


退出 HBase Shell 


get 


获取 行 或 单元 (Cell) 的 值 


list 


列 出 HBase 中 存在 的 所 有 表 


put 


向 指定 的 表单 元 添加 值 


tools 


列 出 HBase 所 支持 的 工具 


scan 


通过 对 表 的 扫描 来 获取 对 应 的 值 


status 


返回 HBase 集群 的 状态 信息 


shutdown 


关闭 HBase 集群 


truncate 


重新 创建 指定 表 


version 


返回 HBase 版 本 信息 


HBase Shell 的 这 些 常 用 命令 的 具体 操作 ,可 通过 help 查看 到 详细 的 用 法 。 首 先 在 
保证 Hadoop 正常 运行 的 情况 下 启动 HBase. HBase 启动 成 功 后 ,执行 如 下 命令 。 


[hadoopa Masterl ~ ]$ hbase shell 


HBase Shell; enter 'help< RETURN» ' for list of supported oqmmands. 


Typ "exit« RETURN» " to leave the HBase Shell 


Version 1.0.0, réc98bff7b719efdol6f71606f357d8229445eb81, Sat Feb 14 19:49:22 PST 2015 


hbase (main) :001:0> 


HBase Shell 启动 成 功 之 后 ,可 以 输入 help 命令 回 车 ,会 返回 文本 的 帮助 信息 ,如 下 


所 示 ( 本 示例 省 略 了 部 分 内 容 ) 。 


C») 


这 里 为 了 给 读者 演示 ,假定 需要 创建 一 个 名 为 person WR, ARA WAIE , r 1E 
name 和 address. name 只 有 一 个 ,address 可 以 有 多 个 ,具体 的 Shell 命令 如 下 。 


向 person 表 中 插入 一 条 记录 ,记录 的 row 值 为 row1l, 列 复 name 的 值 为 tom, 具 体 的 
Shell 命令 如 下 。 


向 person 表 的 address 列 簇 分 别 插入 家 庭 地 址 home 列 和 工作 地 址 work 列 ,并 查询 
其 家 庭 地 址 ,具体 的 Shell 命令 如 下 。 


在 person 表 中 ,根据 row 值 更 新 name 值 , 首 先 根据 row 值 查询 当前 的 name 值 ,再 
执行 put 命令 后 ,查看 该 row 值 更 新 后 的 name 值 ,具体 命令 如 下 。 


通过 list 命令 查询 已 创建 的 表 信息 ;通过 describe 命令 返回 person 表 的 详细 信息 , 包 
括 列 簇 的 列表 ;查询 person 表 中 所 有 数据 ;查看 person 表 中 address 列 簇 的 所 有 数据 等 
操作 ,具体 的 命令 如 下 所 示 。 


对 person 表 删 除 整 行 ,清空 整 张 表 ,设置 表 不 可 用 ,删除 表 , 关 闭 Shell 等 操作 的 具体 
命令 如 下 所 示 。 


上 面 通过 HBase Shell 为 读者 演示 了 创建 ,查询 、 更 新 、 删 除 等 操作 ,有 关 更 多 的 Shell 
命令 请 读者 通过 help 命令 或 查看 相关 的 文档 了 解 。 


7.8 HBase 快照 机 制 


HBase 快照 (HBase Snapshots) 是 对 一 个 表 进 行 快照 ,快照 不 是 表 的 复制 ,而 是 一 个 
文件 名 称 列表 ,因而 不 会 复制 数据 。 快 照 恢 复 是 指 恢复 到 之 前 的 “ 表 结构 "以 及 当时 的 数 
据 ,快照 之 后 发 生 的 数据 不 会 恢复 。HBase 0. 95 版 本 之 前 ,HBase 快照 功能 默认 是 关闭 
的 ;从 HBase 0. 95 版 本 以 后 ,该 功能 默认 是 开启 的 。 当 需要 从 应 用 异常 中 还 原 或 从 一 个 
已 知 的 安全 状态 恢复 等 情况 下 ,都 可 以 使 用 HBase 快照 。HBase 快照 的 常用 操作 如 下 。 


1. 生成 快照 


本 操作 可 尝试 对 指定 表 生 成 快照 ,如 果 集 群 在 执行 数据 均衡 、 分 隔 或 合并 等 操作 时 ， 
可 能 会 对 生成 快照 操作 造成 影响 。 当 要 执行 生成 快照 命令 时 ,首先 需要 检查 HBase 的 快 
照 功 能 是 否 已 开启 。 如 果 要 开始 该 功能 ,需要 修改 hbase-site. xml 配置 文件 中 的 配置 参 
数 , 修 改 内 容 如 下 所 示 。 


OO 车 


如 要 对 person 表 进 行 快照 操作 ,需要 进入 HBase Shell 使 用 快照 命令 snapshot, 具 体 
的 操作 内 容 如 下 。 


hbase (main) :005:0> snapshot. 'person','snapshot person 20150514" 
0 row(s)in 1.2420 seconds 


快照 生成 之 后 ,可 以 使 用 list. snapshots 命令 列 出 所 有 的 快照 ,并 且 会 显示 出 快照 名 
称 、 源 表 以 及 创建 日 期 和 时 间 信 息 , 具 体 命令 如 下 : 


E 


hbase (main) :006:0» list snapshots 
SNAPSHOT TABLE+ CREATION TIME 


snapshot person 20150514 person (Thu May 14 13:44:51-- 0800 2015) 
1 row(s)in 0.0490 seconds 


=> ["snapshot person 20150514"] 


2. 克隆 快照 


本 操作 使 用 与 指定 快照 相同 的 结构 数据 构建 一 张 新 表 ,会 生成 一 张 有 完整 功能 的 表 ， 
对 该 表 的 任意 修改 都 不 会 对 原 表 或 快照 产生 影响 。 克 隆 快 照 使 用 clone snapshot 命令 从 
指定 的 快照 生成 新 表 , 该 操作 不 会 产生 数据 复制 。 克 隆 快 照 的 具体 命令 如 下 。 


hbase (main) :007:0> clone snapshot 'snapshot person 20150514", 'oolensnapshot Person" 
0 row(s)in 0.8520 seconds 
3. 还 原 快 昭 


如 果 需 要 将 快照 蔡 换 为 当前 表 结 构 /数据 ,可 使 用 restore_snapshot 命令 来 还 原 快 
照 ,具体 命令 如 下 。 


hbase (main) :008:0> restore snapshot "snapshot person 20150514" 
0 row(s)in 0.8310 seconds 
4. 导出 快照 


如 果 需 要 将 快照 导出 至 其 他 集群 ,可 使 用 ExportSnapshot 工具 将 现 有 快照 导出 至 其 
他 集群 。 导 出 工具 只 是 将 快照 数据 和 元 数据 复制 到 其 他 集群 ,操作 只 会 涉及 HDFS, 不 会 
影响 到 集群 的 负载 。 导 出 快照 的 具体 命令 如 下 。 
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[hadoope Master1 ~ ]$ hbase org.apache.hadoop.hbase. snapshot .ExportSnapshot 
— snapshot. "snapshot person 20150514' — ccpy- to hdfs: //master1.hadoop:8082/hbase 


5. 删除 快照 


当 不 再 需要 指定 表 的 快照 时 ,可 以 对 该 快照 进行 删除 操作 ,并且 释 放 未 共享 的 磁盘 空 
T] ,该 操作 不 会 影响 其 他 克隆 或 快照 。 删 除 快照 可 使 用 delete snapshot 命令 ,如 下 所 示 。 


hbase (main) :009:0> delete snapshot 'snapshot person 20150514" 
0 row(s)in 0.0220 seconds 


当前 HBase 快照 包含 所 有 的 基础 功能 特性 ,但 是 还 不 完善 ,如 当 执行 复制 快照 命令 
时 还 原 一 个 表 , 可 能 会 造成 两 个 集群 不 同步 等 异常 情况 的 发 生 。 相 信 在 往 后 的 HBase 版 
本 中 ,快照 的 功能 会 有 所 完善 。 


Hive 是 基于 Hadoo 构建 的 一 套数 据 仓库 分 析 系 统 , 它 提供 了 丰富 的 类 Sd 查询 方式 来 
分 析 存 储 在 Hadoo 分布 式 文件 系统 中 的 数据 。 本 章 将 重点 介绍 Hive 的 数据 模型 .数据 类 
型 ,Hive 基本 操作 以 及 内 置 运算 符 和 函数 等 内 容 。 


8.1 Hive 概述 


Hive 是 一 个 基于 Hadoop 的 数据 仓库 基础 架构 , 它 提供 了 数据 存储 管理 和 大 型 数据 
集 的 查询 与 分 析 的 一 系列 工具 ,能 够 很 方便 地 对 存储 于 Hadoop 文件 系统 中 的 数据 进行 
简单 的 数据 汇总 查询、 分 析 等 。Hive 提供 了 一 种 类 似 于 SQL 的 语言 来 组 织 和 查询 数 
据 , 同 时 该 类 SQL 语言 也 允许 熟悉 MapReduce 的 开发 者 开发 自己 定义 的 Mapper 和 
Reducer 来 处 理 内 建 Mapper 和 Reducer 无 法 完成 的 复杂 分 析 任 务 。 
Hive 起 源 自 Facebook, 并 由 Jeff Hammerbacher 领导 的 团队 推动 ,在 Facebook 内 部 
每 天 会 搜集 大 量 的 数据 ,并 需要 在 这 些 数 据 上 进行 大 量 分 析 。 在 2006 年 Facebook 每 天 
需要 分 析 数 十 个 GB 左右 的 数据 ,在 2007 年 增长 到 大 约 TB 的 量 级 。 最 初 的 分 析 是 通过 
手工 的 Python 脚本 形式 进行 ,后 来 将 数据 存储 在 HDFS/HBase 中 ,并 通过 MapReduce 
程序 进行 分 析 。 但 是 MapReduce 是 一 个 底层 编程 接口 ,对 于 数据 分 析 人 员 来 说 需要 进行 
大 量 的 客户 端 编程 及 调试 工作 ,另外 用 HBase 作 数 据 库 没 有 类 SQL 的 查询 方式 ,操作 和 
计算 数据 不 方便 ,而 且 数据 分 析 人 员 对 SQL 更 加 熟悉 ,于 是 Hive 就 诞生 了 。Hive 的 设 
计 目 标 是 使 Hadoop 上 的 数据 操作 与 传统 SQL 结合 ,让 熟悉 SQL 编程 的 开发 人 员 能 够 
轻松 向 Hadoop 平台 转移 。Hive 发 展 简 史 如 表 8. 1 所 示 。 
表 8.1 Hive 发 展 历 程 
时 间 事 件 
2008 年 8 月 | Facebook 把 Hive 项 目 贡献 给 Apache 基金 会 


Hive 0. 7. 0 版 本 发 布 ,此 版 本 为 重大 升级 版 本 ,增加 了 简单 索引 、HAING 等 众多 高 
级 特性 


2011 年 6 月 | Hive 0.7.1 版 本 发 布 ,此 版 本 修复 了 一 些 Bug, 如 在 Windows 上 使 用 JDBC 问题 


Hive 0. 8. 0 版 本 发 布 ,此 版 本 为 重大 升级 版 本 ,加 Bitmap Indexes, TIMESTAMP 
datatype、Plugin Developer Kit,JDBC Driver Improvements 等 新 特性 


2011 年 3 月 


2011 年 12 月 
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续 表 
时 间 事 件 

2012 年 2 月 Hive 0. 8. 1 版 本 发 布 ,修复 了 一 些 Bug, 如 使 Hive 可 以 同时 运行 在 Hadoop 0. 20. x 
与 0.23.0 上 

2012 年 4 月 Hive 0. 9. 0 版 本 发 布 ,重大 改进 版 本 ,增加 了 对 Hadoop 1. 0. 0 的 支持 、 实 现 
BETWEEN 等 特性 

2013 年 1 月 | Hive0. 10.0 版 本 发 布 ,重大 改进 版 本 ,如 支持 创建 Cube 和 Rollup、 更 好 地 支持 
YARN、 联 合 查询 优化 等 ,并 增加 了 对 Hadoop 2. x. y 的 支持 

2013 年 5 月 Hive 0. 11. 0 版 本 发 布 ,新 增 Explain dependency, Union 优化 、 实 现 了 TRUNCATE, 
建立 了 大 量 的 关键 字 等 

2013 4£ 10 H ar 0. 12. 0 版 本 发 布 ,主要 针对 速度 (Speed)、SQL,、HCatalog 等 方面 的 特性 进行 


2014 年 4 月 | Hive 0.13.0 版 本 发 布 , 采 用 了 ACID 语义 的 事务 机 制 等 
2014 年 6 月 | Hive 0.13.1 版 本 发 布 ,修复 了 一 些 Bug, 增 加 了 一 些 新 特性 
2014 年 9 月 | Hive 0.14.0 版 本 发 布 ,修复 了 一 些 Bug, 增 加 了 一 些 新 特性 


Hive 1. 0. 0 版 本 发 布 , 移 除 HiveServerl ,全 面 使 用 Hive Server2; HiveMetaStoreClient E 
义 公开 的 API 等 

Hive 1. 1. 0 版 本 发 布 ,该 版 本 提供 了 简单 数据 ETL、 利 用 各 种 数据 格式 结构 的 机 制 ， 
通过 MapReduce 和 Tez 框架 查询 执行 等 


2015 年 5 月 | Hive 1.2.0 版 本 发 布 ,该 版 本 进行 了 Bug 修复 、 性 能 优化 .增加 了 一 些 新 特性 等 


2015 年 2 月 


2015 年 3 月 


由 于 Hive 采用 了 类 似 SQL 的 查询 语言 HiveQL, 因 此 读者 很 容易 将 Hive 理解 为 数 
据 库 。 其 实 Hive 为 数据 仓库 设计 ,而 传统 的 数据 库 可 用 在 Online 的 应 用 中 ,只 是 这 两 者 
拥有 类 似 的 查询 语言 ,具有 同样 的 SQL 界面 而 已 。Hive 与 数据 库 之 间 的 具体 差异 如 
表 8.2 所 示 。 


表 8.2 Hive 与 数据 库 之 间 的 差异 


数据 仓库 Hive 关系 型 数据 库 RDBMS 
查询 语句 HiveQL SQL 
数据 存储 位 置 HDFS/HBase Raw Device/Local FS 
数据 格式 用 户 定义 系统 决定 
数据 更 新 不 支持 (会 把 之 前 的 数据 覆盖 ) 支持 
索引 0. 8 版 本 之 后 增加 ,但 弱 有 
执行 MapReduce Executor 
执行 延迟 高 低 
可 扩展 性 高 低 
数据 规模 大 (数据 大 于 TB) 小 
数据 检查 读 时 模式 写 时 模式 
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1. 查询 语句 


由 于 SQL 已 被 广泛 地 应 用 在 数据 库 操 作 中 ,因此 Hive 专门 针对 熟悉 SQL 的 开发 者 
提供 了 类 SQL 的 查询 语言 HiveQL ,方便 SQL 开发 者 使 用 Hive 进行 开发 。 


2. 数据 存储 位 置 


传统 的 数据 库 是 将 数据 保存 在 块 设备 Raw Device 或 本 地 文件 系统 Local FS 上 ,而 
Hive 是 建立 在 Hadoop 平台 基础 上 ,数据 都 是 存储 在 HDFS 或 HBase 中 。 


3. 数据 格式 


在 传统 数据 库 中 ,不 同 的 数据 库 有 不 同 的 存储 引擎 ,都 已 定义 了 自己 的 数据 格式 , 存 
在 数据 库 中 所 有 的 数据 都 会 按照 该 数据 格式 进行 存储 。Hive 没有 定义 专门 的 数据 格式 ， 
默认 支持 多 种 文件 格式 ,同时 也 可 以 通过 实现 MapReduce 的 InputFormat 或 
OutputFormat 类 由 用 户 定 制 格式 。 


4. 数据 更 新 


传统 数据 库 主 要 对 数据 进行 增 、 删 、 查 、 改 等 操作 ,支持 数据 更 新 。Hive 是 针对 数据 
仓库 应 用 设计 的 ,而 数据 仓库 中 的 数据 主要 以 读 为 主 ,因此 ,Hive 不 支持 对 数据 的 更 新 
操作 。 


5. 索引 


传统 数据 库 通常 会 针对 一 个 或 几 个 列 建立 索引 ,对 于 少量 的 特定 条 件 的 数据 访问 具 
有 低 延 迟 、 高 效率 的 特点 。Hive 0. 8 版 本 之 前 并 没有 索引 ,由 于 使 用 MapReduce, Hive 
可 以 并 行 访问 数据 ,对 于 大 数据 量 的 访问 ,Hive 也 可 以 体现 出 优势 。 在 Hive 0. 8 版 本 之 
后 ,也 增加 了 其 索引 ,主要 是 为 了 降低 访问 延迟 。 


6. 执行 


传统 数据 库 都 有 自己 的 执行 引擎 。Hive 中 大 多 数 查询 的 执行 都 是 通过 Hadoop 提 
供 的 MapReduce 来 实现 的 。 


7. 执行 延迟 


传统 数据 库 对 于 已 建立 索引 的 数据 ,其 执行 延迟 较 低 , 对 于 未 建立 索引 的 大 规模 数 
据 , 其 执行 延迟 较 高 。Hive 一 方面 没有 对 数据 建立 索引 ,需要 扫描 整个 表 , 因 此 执行 延迟 
较 高 ; 男 一 方面 MapReduce 框架 也 是 Hive 执行 延迟 较 高 的 原因 之 一 。 


8. 可 扩展 性 


传统 数据 库 是 基于 ACID 语义 的 ,因此 扩展 性 非常 有 限 。Hive 是 建立 在 Hadoop 集 
群 之 上 的 ,因此 Hive 的 可 扩展 性 和 Hadoop 的 可 扩展 性 是 一 致 的 。 
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9. 数据 规模 


数据 库 设计 本 身 存 在 缺陷 ,使 得 数据 库 可 以 支持 的 数据 规模 较 小 。Hive 是 建立 在 
Hadoop 集群 之 上 ,并 可 以 使 用 MapReduce 进行 计算 ,因此 可 以 支持 的 数据 规模 比较 大 。 


10. 数据 检查 


传统 数据 库 的 数据 检查 是 写 时 模式 (Schema on Write) , 即 数据 在 写 入 数据库 时 对 模 
式 进 行 检 查 。 这 种 写 时 模式 有 利于 提升 查询 功能 。Hive 的 数据 检查 是 读 时 模式 
(Schema on Read) , B} Hive 在 数据 加 载 时 不 进行 验证 ,而 是 在 查询 数据 时 才 进 行 数据 检 
查 。 在 很 多 情况 下 ,加 载 时 模式 是 未 知 的 ,也 不 能 决定 使 用 何 种 索引 时 ,适合 使 用 读 时 
模式 。 

另外 ,Hive 和 HBase 都 是 基于 Hadoop 架构 之 上 ,都 是 用 HDFS 作为 底层 存储 , 它 
们 两 个 的 主要 区 别 在 于 Hive 是 建立 在 Hadoop 之 上 为 了 减少 MapReduce Jobs 编写 工作 
的 批 处 理 系统 ,HBase 是 为 了 支持 弥补 Hadoop 对 实时 操作 缺陷 的 ; Hive 本 身 不 存储 和 
计算 数据 , 它 完 全 依赖 于 HDFS 和 MapReduce, Hive 中 的 表 是 纯 罗 辑 表 , HBase AS B: 
辑 表 , 而 是 物理 表 , 提 供 一 个 超大 的 内 存 Hash 表 , 搜 索引 擎 通过 它 来 存储 索引 和 方便 查 
询 操 作 。 


8.2 Hive 特点 


Hive 最 大 的 特点 就 是 基于 Hadoop 平台 可 以 自动 适应 节点 数目 和 数据 量 的 动态 变 
化 , 即 可 扩展 性 ,还 具有 MapReduce 和 用 户 定义 的 函数 库 相 结合 的 可 延展 性 ,并 且 具 有 良 
好 的 容错 性 和 低 约束 的 数据 输入 格式 等 特点 。Hive 特点 的 具体 说 明 如 下 。 


1. 可 扩展 性 


传统 的 并 行 数据 仓库 可 以 很 好 地 扩展 到 几 十 或 者 上 百 个 节点 的 集群 ,并 且 达 到 接近 
线性 的 加 速 比 ,但 如 果 需 要 扩展 到 上 千 或 者 更 多 节点 时 ,传统 的 并 行 数据 仓库 则 无 法 满足 
要 求 。 而 Hive 与 传统 的 并 行 数据 仓库 最 大 的 不 同 之 处 在 于 Hive 更 加 关注 水 平 扩展 性 ， 
即 可 通过 简单 地 增加 资源 来 支持 更 大 的 数据 量 和 负载 ,其 水 平 扩 展 性 可 达到 上 千 以 上 。 
Hive 的 水 平 可 扩展 性 使 得 能 够 处 理 PB 级 的 数据 量 。 


2. 可 延展 性 


Hive 的 可 延展 性 体现 在 支持 用 户 自 定义 函数 方面 ,用 户 可 以 根据 自己 的 需求 来 实现 
自己 的 函数 。 如 Hive 定义 的 类 SQL 语言 (HiveQL) ,允许 用 户 进行 和 SQL 相似 的 操作 ， 
而 且 还 允许 开发 人 员 方 便 地 开发 自己 定义 的 Mapper 和 Reducer 来 处 理 内 建 Mapper 和 
Reducer 无 法 完成 的 复杂 分 析 任 务 。 
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3. 容错 性 


Hive 是 基于 MapReduce 框架 ,Hive 的 执行 计划 在 MapReduce 框架 上 以 作业 的 形式 
执行 ,每 个 作业 的 中 间 结 果 文 件 写 到 本 地 存储 ,最 终 输 出 文件 写 到 HDFS 文件 系统 中 , 利 
用 HDFS 的 多 副本 机 制 来 保证 数据 的 可 靠 性 ,从 而 达到 作业 的 容错 性 , 即 Hive 的 容错 
性 。 当 作业 在 执行 过 程 中 某 节点 出 现 故障 ,也 不 会 影响 到 Hive 的 执行 计划 。 


4. 低 约 束 性 


传统 的 并 行 数据 仓库 需要 先 把 数据 装载 到 数据 库 中 ,并 按照 特定 的 格式 进行 存储 , 然 
后 才能 执行 查询 操作 。Hive 与 传统 并 行 数据 仓库 的 不 同 之 处 在 于 Hive 具有 低 约束 性 ， 
即 Hive 没有 自己 专门 的 数据 存储 格式 ,也 没有 为 数据 建立 索引 (Hive 0. 8 版 本 之 前 ), 用 
户 可 以 非常 自由 地 组 织 Hive 中 的 表 。Hive 在 执行 查询 前 无 须 导 入 数据 ,直接 执行 查询 
操作 , 而且 Hive 默认 支持 多 种 文件 格式 ,同时 也 可 以 通过 实现 MapReduce 的 
InputFormat 或 OutputFormat 类 由 用 户 定制 格式 。 


8.3 Hive 体系 架构 


Hive 可 被 认为 是 一 种 数据 仓库 ,并 提供 了 完整 的 SQL 查询 功能 , 它 建立 在 Hadoop 
的 其 他 组 件 之 上 ,依赖 于 HDFS/HBase 进行 数据 存储 ,并 依赖 于 MapReduce 完成 数据 查 
询 操作 。Hive 可 将 结构 化 的 数据 文件 映射 为 一 张 数据 库 表 , 可 将 SQL 语句 转换 为 
MapReduce 任务 进行 ,并 按照 该 计划 生成 MapReduce 任务 后 交 给 Hadoop 集群 处 理 。 
Hive 的 体系 框架 如 图 8. 1 所 示 。 


T5) Hive Map Reduce HDFS 


Web UI+Hive CLI-JDBC/ODBC User-Defined 
Browsing Queries DDL MapReduce Scripts 
| | | > 
MetaStore Hive QL š 
FEE 
HE 
Thrift API Parser 2c 
3 g File Formats 
Planner Execution 2m 
z 
z 
I A TextFile 
SequenceFile 
É See |.|  RCFile 
Thrift Jute JSON... 


8.1 Hive 体系 架构 


从 图 8. 1 可 以 看 出 , Hive 的 体系 架构 主要 由 用 户 接口 、 元 数据 存储 MetaStore, 
HiveQL MapReduce, HDFS/H Base 存储 组 成 ,具体 说 明 如 下 。 
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1. 用 户 接口 


Hive 的 用 户 接口 主要 用 于 提交 查询 和 其 他 操作 ,包含 类 似 命令 行 接口 CLI、 Thrift 
Client, Web UI 和 JDBC/ODBC。 其 中 ,命令 行 接口 CLI JJ Shell 命令 行 ;Web UI 是 通过 
浏览 器 访问 Hive, 该 接口 对 应 Hive 的 hwi 组 件 (Hive Web Interface) ,使 用 前 要 启动 hwi 
服务 ;JDBC/ODBC X Hive 的 Java, 与 使 用 传统 数据 库 JDBC 的 方式 类 似 ; Thrift Client 
是 为 其 他 Client 端 提供 Thrift 服务 ,如 JDBC fil ODBC 接口 。Thrift 服务 简化 了 在 多 编 
程 语言 中 运行 Hive 命令 ,Hive 的 Thrift 绑 定 支持 C++ „Java, PHP,Python 和 Ruby 等 。 


2. 元 数据 存储 MetaStore 


Hive 将 元 数据 存储 在 数据 库 中 ,如 MySQL, Derby, Hive 中 的 元 数据 包括 表 的 名 
字 、 列 ,分 区 及 其 属性 、 表 的 属性 (是 否 为 外 部 表 等 )、 表 的 数据 所 在 目录 等 。Hive 默认 使 
用 内 存 数据 库 Derby 存储 元 数据 ,使 用 时 不 需要 修改 任何 配置 ,缺点 就 是 当 Hive 重启 后 
所 有 的 元 数据 都 会 丢失 。Hive 还 可 使 用 MySQL. Oracle 等 任何 支持 JDBC 连接 方式 的 
数据 库 来 存储 元 数据 ,此 时 需要 修改 相应 的 配置 项 。 


3. HiveQL 


HiveQL 组 件 可 看 作 了 驱动 器 Driver, 包 括 解 释 器 Parser、 执 行 计 划 Panner 和 执行 引 
3E, Hive 通过 解释 器 Parser 将 HiveQL 编译 成 中 间 表 示 ,包括 对 HiveQL 的 分 析 ,执行 
计划 的 生成 以 及 优化 等 工作 。 最 后 由 执行 引擎 Execution 完成 具体 的 执行 操作 ,包括 
MapReduce 执行 .HDFS 操作 .元 数据 操作 等 。 


4. SerDe 


SerDe 是 Serialize/Deserilize 的 简称 ,主要 用 于 序列 化 (将 Java 对 象 转换 成 存储 格 
式 ) 和 反 序 列 化 (从 存储 格式 转换 成 Java 对 象 ) 。 用 户 在 Hive 中 建 表 时 可 以 用 自 定义 的 
SerDe 或 者 使 用 Hive 自 带 的 DerDe 为 表 指定 列 ,并 对 列 指定 相应 的 数据 。 


5. Hadoop 


Hadoop 包括 MapReduce fll HDFS/HBase, 这 一 部 分 其 实 并 不 包括 在 Hive 之 中 , 它 
是 Hive 存储 和 计算 的 实际 载体 。Hive 的 数据 存储 在 HDFS/HBase 中 ,大 部 分 的 查询 由 
MapReduce 完成 。 


8.4 Hive 安装 配置 
要 使 得 Hive 在 Hadoop 集群 中 充分 发 挥 作用 ,就 需要 相应 的 软件 、 硬 件 及 以 太 网 络 


的 支撑 。 下 面 将 针对 Hive 系统 正常 运行 所 需要 的 软 硬 件 环境 、 网 络 环境 、 安 装 模 式 、 配 
置 .部署 等 方面 进行 介绍 ,帮助 初学 者 对 Hive 进行 更 深入 的 研究 和 学 习 。 
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84 准备 工作 


Hive 是 Hadoop 生态 系统 中 的 一 个 组 件 ,在 Hadoop 集群 规划 时 ,就 应 该 考虑 到 对 
Hive 的 集群 规划 (有 关 集 群 规划 的 相关 内 容 请 查看 3.6 节 )。 在 没有 实际 业务 需求 ,以 研 
究 和 学 习 为 目的 ,并 帮助 初学 者 快速 搭建 Hive 集群 环境 的 情况 下 ,本 实例 将 在 表 3. 7 的 
Hadoop 集群 搭建 的 基础 上 ( 软 硬 件 环境 及 网 络 环境 ) 对 Hive 集群 中 的 各 节点 角色 进行 
分 配 , 具 体 节点 角色 分 配 和 配置 参数 信息 如 表 8. 3 所 示 。 


表 8.3 Hive 集群 节点 角色 分 配 


机 器 名 称 角 色 IP 地 址 硬件 参数 操作 系统 

NameNode 
SecondaryNameNode mp 1GB 

Masterl. Hadoop | ResourceManager 192.168.1.100 | 日 处 理 器 1 CentOS 7 
HMaster 加 硬盘 (SCSD) 20GB 
MySQL 
DataNode 
NodeManager "nF 1GB 

Slavel. Hadoop | HRegionServer 192. 168. 1. 101 | MANER 1 CentOS 7 
ZooKeeper CANBERSCSI) 20GB 
Hive(Server) 
DataNode 
NodeManager mp 1GB 

Slave2. Hadoop HRegionServer 192. 168. 1. 102 | TANER 1 CentOS 7 
ZooKeeper mssm(scsp 20GB 
Hive(Client) 
DataNode 
Nodemanager mp 1GB 

Slave3. Hadoop HRegionServer 192. 168. 1. 103 | 局 处 理 器 1 CentOS 7 
ZooKeeper mss(scsp 20GB 
Hive(Client) 


由 表 8.3 可 以 看 出 ,Master 机 器 主要 配置 MySQL ,主要 负责 元 数据 的 存储 ;Slave 机 
器 配置 Hive. 主要 负责 HiveQL 的 解析 .编译 优化 .生成 执行 计划 .调用 底层 的 
MapReduce 计算 框架 等 。 


842 安装 模式 

Hive 的 安装 模式 有 内 和 嵌 模 式 、 本 地 独立 模式 和 远程 模式 三 种 。 这 三 种 安装 模式 的 主 
要 区 别 如 图 8. 2 所 示 。 

1. 845 sÇ 


Vj irc BE SX (Embedded Metastore) EK JAGR fat $F fE VI i BJ Derby 数据 库 中 ,一 个 内 
HE Derby 数据 库 每 次 只 允许 一 个 会 话 连接 ,不 支持 多 会 话 连接 ,只 适用 于 简单 的 测试 。 
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Hive Service JVM 
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Hive Service JVM 
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Driver [—*| MetaStore 


(b) 本 地 独立 模式 
Hive Savice JVM MetaStore 
Driver Service JVM s 
Hive SENE JVM MetaStore K 
Driver Service JVM 
(c) 远程 模式 


8.2 Hive 三 种 安装 模式 


2. 本 地 独立 模式 


本 地 独立 模式 (Local Metastore) 是 在 本 地 安装 数据 库 , 把 元 数据 放 在 本 地 数据 库 中 ， 
常用 的 是 使 用 MySQL 作为 元 数据 库 ,这 种 模式 能 够 支持 多 会 话 和 多 用 户 连 接 。 


3. 远程 模式 


远程 模式 (Remote Metastore) 是 把 元 数据 放置 在 远程 的 数据 库 , Hive 服务 通过 
Thrift 访问 元 数据 MetaStore, 这 种 模式 可 以 控制 数据 库 的 连接 等 。 
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本 实例 将 采用 远程 模式 来 安装 Hive, 并 使 用 MySQL 作为 元 数据 库 。 首 先 需要 在 原 
有 Hadoop 的 集群 节点 中 选择 安装 MySQL 和 Hive 的 节点 (Hive 原则 上 可 以 安装 在 集群 
上 的 任何 一 个 节点 上 ), 这 里 仅 使 用 Masterl. Hadoop 节点 作为 Hive 和 MySQL( 用 于 存 
储 Hive 元 数据 ) 的 节点 。 具 体 安装 过 程 如 下 。 


1. 安装 MySQL 


MySQL 可 通过 yum 命令 在 线 下 载 安 装 、 下 载 离 线 rpm 安装 包 安 装 、 下 载 源码 编译 
安装 三 种 方式 进行 安装 。 本 实例 采用 下 载 离 线 rpm 安装 包 的 方式 进行 MySQL 的 安装 。 
MySQL 到 目前 为 止 的 最 新 版 本 为 MySQL Community Server 5. 6. 24, 读 者 可 从 MySQL 
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官网 进行 下 载 (http://dev. mysql. com/downloads/mysql/) ,本 实例 所 使 用 的 MySQL 版 
本 为 5. 5.4( 请 查看 本 书 配套 资料 中 Softwares 文件 夹 下 的 MySQL-server-5. 5. 40-1. el6. 
x86 64. rpm), ERR MySQL 之 前 ,首先 需要 确认 系统 是 否 已 经 安装 相应 的 数据 库 。 
因为 Masterl. Hadoop 节点 安装 了 CentOS 7 版 本 的 Linux 操作 系统 ,默认 安装 了 
mariadb-libs ,必须 先 印 载 才 可 以 继续 安装 MySQL, 具 体 的 操作 命令 如 下 。 


[root@ master1 hadogp]itrgm - qalgrep - i mariadb- libs 

// 查 找 是否 安 装 mariacb- libs 
mariadb- libs- 5.5.35- 3.e17.x86 64 
[root master hadoop]ityum remove mariadb- libs.x86 64 

/ [3 mariadb- libs 
Loaded plugins: fastestmirror, langpacks 
Repository base is listed more than once in the configuration 
Repository updates is listed more than once in the oanfiguration 
Repository extras is listed more than once in the configuration 
Repository centosplus is listed more than once in the configuration 
Repodata is over 2 weeks old. Install yum- cron?Or run: yum makecache fast 


Removed: 
mariadb- libs.x86 64 1:5.5.35- 3.e17 


Dependency Removed: 
postfix.x86 64 2:2.10.1- 6.617 


Complete! 
[rootëmaster1 hactcp]ërrm - cal grep - i mysql // 检 查 是 否 安装 MIL 
/安装 MySQL. 
[root@ masterl hadoop]#rpn - ivh MySQL- server- 5.5.40- 1.e16.x86 64.:pm 
Preparing... LLL AH [1008] 
Updating / installing... 

1:MySQL- server- 5.5.40- 1.e16 HHHHRHHEHEHHHHHHHHHEHHHHHE [1008] 
[root& masterl bin]#service mysql start /启动 MySQL. 
Starting MySQL.. SUXESS! 
[root@ master] bin]#service mysql status /查看 WSL 运行 状态 


SUCCESS! MySQL running (3281) 


2. 配置 MySQL 


安装 好 MySQL 之 后 ,就 要 对 MySQL 进行 配置 ,如 创建 Hive 元 数据 库 、 指 定 hive 
户 及 授权 等 ,来 满足 Hive 的 元 数据 存储 要 求 ,具体 配置 过 程 如 下 。 
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/AsQL 安 装 完成 后 只 有 一 个 root 管 理 账号 ,但 是 此 时 的 root 账 号 并 没有 密码 

[hacocp8 masterl ~ ]$ mysql -u root -p // 通 过 该 命令 来 登录 MsQL 数 据 库 
Enter password: 

Welcome to the MySQL monitor. Commands end with ; or Ng. 

Your MySQL connection id is 261 

Server version: 5.5.40 MySQL Camunity Server (GEL) 


Type 'help;' or 'Nh' for help. Type '\c' to clear the current input statement. 


/在 MySQL rh 28 Hve 创 建 hive 用 户 , 数 据 库 和 授权 


mysql> CFEATE USER "hive' IDENTIFIED BY 'hive'; //8| hive fli P: 
mysql> GRANT ALL PRIVILEGES ON * .* TO 'hive'G '&' WITH GRANT OPTION; 
// 授 权 

mysql» flush privileges; 
mysql» exit; // 退 出 MySQL CHR PE 
[hadocpé masterl ~ ]$ mysql - uhive - phive // 使 用 hive 账 号 登录 MySQL CHR ë 
mysql» create database hive; // 创 建 hive 数 据 库 
mysql> show databases; // 显 示 已 创建 的 数据 库 
+-------------------- + 

Database 
+-------------------- + 

infomation schema | 

hive I 

performance schema | 

test l 
4-------------------- * 


4 rows in set (0.00 sec) 


至 此 ,完成 了 在 MySQL 数据 库 中 为 Hive 创建 了 元 数据 库 ( 数 据 库 名 为 hive) ,指定 


Hive 用 户 ( 用 户 名 为 hive, 密 码 为 hive) 及 授权 等 配置 。 


3. 安装 Hive 


Hive 的 安装 过 程 与 Hadoop 和 HBase 的 安装 过 程 相似 , 先 下载 与 Hadoop 和 HBase 


版 本 对 应 的 Hive 文件 安装 包 ( 可 从 Hive 官网 http://hive. apache. org/ 下 载 Hive 的 最 
新 版 本 ,到 目前 为 止 Hive 的 最 新 版 为 1. 2.0) ,然后 将 压缩 包 解 压 到 集群 节点 的 安装 目录 
中 。 本 实例 的 Hadoop 版 本 为 2. 6.0,HBase 版 本 为 1.0.0, 与 其 匹配 的 Hive 最 新 版 本 为 
Hive 1. 2.0。 因 此 ,在 官网 下 载 了 Hive 1. 2. 0 版 本 或 在 本 书 配 套 资料 中 的 Softwares A 
录 下 查看 Hive( 文 件 名 为 apache-hive-1. 2. 0-bin. tar. gz) 文 件 压缩 包 , 然 后 将 压缩 包 解压 
到 Slavel. Hadoop 节点 的 /opt/ 目 录 下 ,具体 命令 过 程 如 下 。 


star - zuvf apacte- hive- 1.2.0- bin.tar.gz //f Fk. Hwe 二 进 制 文件 
+w apache hive- 1.2.0- bin /apt/ /移动 Hive 1.2.0 到 "opt/" 目 录 下 
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/把 "/cpt/ apache- hive- 1.2.0- bin" 读 权限 分 配给 hadoop Hl P: 

#chown -R hadoopzhadoop. /apt/ apache hive- 1.2.0- bin 

#vi /etc/profile // 把 Hive 安 装 路 径 添加 到 配置 文件 profile rf 
export HIVE. HOME= /opt/apache- hive- 1.2.0- bin 
export PATH= $ PATH:$ JAVA HOME/bin:$ HIVE. HOME/bin 

#su hadpap // 切 换 为 hadoop Hl P: 


通过 上 述 过 程 ,就 完成 了 Hive 二 进 制 文件 的 解压 .hadoop 权限 .配置 环境 变量 等 过 
程 。 同 理 , 可 将 集群 规划 中 的 Slave2. Hadoop 和 Slave3. Hadoop 都 进行 上 述 操作 或 者 将 
Slavel. Hadoop 的 Hive 安装 包 复制 到 Slave2. Hadoop 和 Slave3. Hadoop 的 相应 目录 中 。 
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当 Hive 安装 完成 之 后 ,就 需要 对 Hive 进行 配置 。Hive 使 用 和 Hadoop 类 似 的 
XML 配置 文件 进行 设置 ,配置 文件 在 二 HIVE_HOME 之 /conf 目录 下 ,如 hive-env. sh, 
hive-site. xml 和 hive-log4j. properties 配置 文件 。 


1. 配置 hive-env. sh 


在 启动 Hive 时 ,会 使 用 到 hive-env. sh 配置 文件 ,该 配置 文件 的 配置 可 参考 二 HIVE_ 
HOME> /conf 目录 下 的 hive-env. sh. template, 配 置 内 容 如 下 。 


#Set HADOOP HOME to point to a specific hadoop install directory 
HADOOP HOME- /opt/hadogp- 2.6.0 //Hadoop 安 装 目录 


2. 配置 hive-site. xml 


本 实例 的 Hive 在 启动 时 会 加 载 两 个 配置 文件 ,一 个 是 默认 配置 文件 hive-default. 
xml, 另 一 个 就 是 用 户 自 定义 文件 hive-site. xml, ` hive-site. xml 中 的 配置 参数 的 值 与 
hive-default. xml 文件 中 不 一 致 时 ,以 用 户 自 定义 的 hive-site. xml 配置 文件 为 准 。 因 此 ， 
可 使 用 hive-default. xml 文件 来 保留 默认 配置 ,hive-site. xml 用 于 个 性 化 配置 ,来 覆盖 默 
认 配 置 ,具体 的 操作 如 下 。 


[hadoope slavel ~ ]$ su root // 切 换 为 root Hj P: 
Password: 
[root slavel hadocp] iod /apt/apache- hive- 1.2.0- bin/conf/ 

/ hit À. Hive conf 目录 
[root@ slavel conf]#cp hive- default.xml.template hive- default.xml 

// 复 制 
[root slavel conf]#chown -R hadbop:hadbop hive- default.ml 

// 授 权 hadoop 用 户 


[root@ slavel conf]£cp hive- default.xml.template hive- site.xml 
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在 Hive 安装 目录 的 conf 目录 下 没有 hive-default. xml 和 hive-site. xml 文件 ,只 有 
— ^r hive-default. xml. template 文件 ,所 以 要 复制 该 文件 ,并 且 分 别 命名 为 hive-default. 
xml 和 hive-site. xml。 由 于 是 使 用 root 用 户 操作 ,还 需要 把 这 两 个 文件 授权 给 hadoop 用 
户 。 然 后 ,需要 配置 Hive Server 端 (Slavel. Hadoop 节点 ) 的 hive-site. xml 文件 ,其 配置 
内 容 如 下 。 
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其 中 ,javax. jdo. option. ConnectionURL 用 来 配置 Metastore 数据 库 的 JDBC URL. 
本 实例 Hive 的 Metastore 元 数据 库 为 Masterl. Hadoop 节点 上 MySQL 数据 库 中 的 hive 
元 数据 库 ;javax. jdo. option. ConnectionDriverName 用 来 配置 JDBC 驱动 器 类 名 , 即 
com. mysql. jdbc. Driver; javax. jdo. option. ConnectionUserName 用 来 配置 JDBC 用 户 
名 ,在 配置 MySQL 数据 库 时 指定 了 hive 用 户 名 ;javax. jdo. option. ConnectionPassword 
用 来 配置 JDBC 密码 ,在 配置 MySQL 数据 时 指定 了 hive 密码 ; hive. metastore. 
warehouse. dir 参数 用 来 配置 表 的 存储 位 置 ,这 里 使 用 了 默认 值 /user/hive/warehouse。 
如 果 读者 想 了 解 有 关 hive-site. xml 的 更 多 信息 ,请 查看 二 HIVE_HOME>/conf 目录 下 
的 hive-default. xml. template 文件 或 查看 附 表 4 的 内 容 。 

由 于 本 实例 Hive 的 安装 模式 为 远程 模式 ,因此 还 需要 对 Hive 客户 端 (Slave2. 
Hadoop 节点 和 Slave3. Hadoop 节点 ) 进 行 配置 ,对 Hive Client 端的 hive-site. xml 文件 
配置 内 容 如 下 。 


< 1- - thrift://«host. name» :« port^ BR iA Sij O Jë: 9083 --> 
«property» 
< nane» hive.metastore.urisc /name> 
«value» thrift://Slavel.Hacoop:9083« /value» 
«description» Thrift uri for the remote metastore. Used by metastore client to connect to remote 
metastore.« /description» 
< /property» 


< 上 二 -hive 表 的 默认 存储 路 径 --> 
«property» 

< nane» hive.metastore.warehouse.dir« /name» 

< value» /user/hive/warehouse« /value» 

< description» location of default database for the warehouse« /description» 
< /property» 


其 中 ,hive. metastore. uris 用 于 指定 Hive 元 数据 访问 路 径 , 该 属性 一 般 都 配置 在 
Hive Client 端 ,其 格式 如 下 。 


<property> 
< name» hive .metastore.uris< /name> 
« value» uril,uri?, ... < /value> // 可 配置 多 个 uri 
< description» JEC connect string for a JRC metastore« /description» 
< property» 


URI 的 格式 为 thrift://Hive Server ža IP; 端口 号 (默认 端口 号 为 9083) 。thrift 是 
Hive 的 通信 协议 ,用 于 指定 IP 的 节点 上 启动 Hive 服务 ,而 且 value 值 可 以 配置 多 个 
URI, 表 示 可 以 访问 多 个 Hive Server 端 ;hive. metastore. warehouse. dir 用 于 指定 Hive 
的 数据 存储 目录 ,默认 值 是 /user/hive/warehouse。 
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3. 使 用 JDBC 连接 元 数据 


安装 并 配置 完 Hive 之 后 ,需要 复制 MySQL 的 JDBC 3K 3l 8 #|<— HIVE HOME--/ 
lib 目录 下 ,这 样 可 通过 JDBC 连接 到 元 数据 库 。 本 实例 MySQL JDBC 的 驱动 包 所 使 
的 版 本 为 mysql-connector-java-5. 1. 16. jar( 本 书 配 套 资 料 的 Softwares 目录 下 的 mysql- 
connector-java-5. 1. 16. jar 文件 ) ,将 其 复制 到 Hive 的 lib 目录 下 。 
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当 完成 上 述 的 Hive 安装 与 配置 之 后 ,就 可 以 通过 hadoop 用 户 权限 启动 Hive。 由 于 
本 实例 采用 的 是 Hive 远程 模式 ,在 启动 时 需要 先 启动 Hive Server 端的 Metastore 服务 ， 
再 由 Hive Client 端 通过 Hive Shell 连接 访问 。Hive Server 端的 Metastore 服务 启动 命 
令 为 : 


hive - - service metastore - p «port num» 


如 果 不 加 端口 默认 启动 : hive -service metastore, 则 默认 监听 端口 是 9083。 这 里 需 
要 注意 的 是 ,Client 端 中 的 端口 配置 需要 和 启动 监听 的 端口 一 致 。Server 端 启 动 正 常 后 ， 
Client 端 就 可 以 执行 hive RET. Hive 具体 启动 命令 如 下 。 


//Hive Server ği Slavel.Hadoop 的 Hive Metastore 服 务 启 动 
[hadocp slavel ~ ]$ hive - - service metastore 
Starting Hive Metastore Server 


//Hive Client 端 Slave2.Hadoop 启 动 Hive Shell 

[hadoope slave? ~ ]$ hive 

Iogging initialized using configuration in file:/apt/apache - hive - 1. 2. 0 - bin/œnf/hive - 
1094j.praperties 

hive> 


//Bive Client 端 Slave2.Hadoop 启 动 Hive Shell 
[hadoope slave3 ~ ]$ hive 
Iogging initialized using configuration in file:/apt/apache - hive - 1. 2. 0 - bin/oonf/hive - 
1094j.properties 
hive» create table test (key string); // 创 建 一 个 test 表 ,测试 其 可 用 性 
=< 
Time taken: 9.308 seconds 
hive> show tables; // 显 示 已 创建 的 表 
< 
test 
Time taken: 0.19 seconds, Fetched: 1 row(s) 
hive> 
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通过 上 述 命令 ,成 功 启 动 了 Hive Server 端的 Hive Metastore 服务 和 Hive Client 端 
的 Hive Shell ,然后 又 在 Slave3. Hadoop 节点 的 Hive Client 端 创建 了 一 个 名 为 test 的 
表 , 并 通过 show tables 命令 显示 已 创建 的 表 。 在 Hive Shell 中 ,如 果 一 个 命令 或 者 查询 
执行 成 功 了 , 则 先 输出 OK ,然后 才 会 紧 跟 着 输出 内 容 , 最 后 一 行 表示 命令 或 者 查询 执行 
所 消耗 的 时 间 的 输出 信息 结尾 。 在 Hive Client 端 创建 的 test 表 已 通过 Hive Server 端 存 
储 在 了 MySQL 数据 库 中 ,具体 的 查看 命令 如 下 。 


第 8 章 数据 仓库 Hive QS 


29 rows in set (0.00 sec) 


通过 show tables 命令 ,读者 可 看 到 在 MySQL 数据 库 中 的 Hive 元 数据 表 , 如 TBLS 
表示 所 有 Hive 表 的 基本 信息 ;TABLE_PARAMS 表示 表 级 属性 ;SERDE_PARAMS 表 
示 序 列 化 反 序 列 化 信息 :PARTITIONS 表示 Hive 表 分 区 信息 ;PARTITION_KEYS X 
示 Hive 分 区 表 分 区 键 ;PARTITION_KEY_VALS 表示 Hive 表 分 区 名 等 。 例 如 ,可 通过 
mysql> select * from TBLS; 命 令 查看 Hive 的 元 数据 信息 (如 图 8.3 所 示 ) 。 


1 1 1 14233000 | 11 0 | hadoop o 1 | test — | MANACED TABLE | NULL | ou 1 


1 row in set (0.00 sec) 


图 8.3 Hive 的 元 数据 信息 


通过 上 述 的 一 系列 步骤 ,完整 地 演示 了 如 何 安装 和 配置 Hive, 并 通过 添加 一 张 数据 
库 表 的 演示 ,来 说 明 Hive 和 MySQL 元 数据 库 之 间 的 关系 操作 。 请 读者 深刻 体会 和 
理解 。 


8.5 Hive 数据 模型 


Hive 是 基于 Hadoop 分 布 式 文件 系统 的 ,本 身 并 没有 专门 的 数据 存储 格式 ,也 没有 
为 数据 建立 索引 ,只 需要 在 创建 表 时 告诉 Hive 数据 中 的 列 分 隔 符 和 行 分 隔 符 就 可 以 解 
析 数 据 。Hive 的 数据 主要 分 为 表 数 据 和 元 数据 , 表 数 据 是 Hive 中 表格 (Table) 具 有 的 数 
据 ;元 数据 是 用 来 存储 表 的 名 字 , 表 的 列 、 分 区 及 其 属性 等 。 因 此 ,Hive 的 数据 模型 主要 
由 表 构 成 ,包括 内 部 表 (Table) .外 部 表 (External Table) .分 区 表 (Partition Table) . fifi 
(Bucket Table) 。 


1. 内 部 表 


Hive 中 的 内 部 表 和 关系 型 数据 库 中 的 表 的 概念 是 相似 的 ,能 被 过 滤 、 投 影 .连接 和 合 
并 。 表 的 创建 这 程 和 数据 加 载 过 程 可 以 在 同一 个 语句 中 完成 , 当 删 除 表 时 , 表 中 的 数据 和 
元 数据 将 一 同 被 删除 。 每 个 Hive 的 内 部 表 在 HDFS 中 都 有 相应 的 目录 用 来 存储 表 中 的 
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数据 ,该 目录 可 通过 ${HIVE_ HOME) /conf/hive-site. xml 配置 文件 中 的 hive. 
metastore. warehouse. dir 属性 进行 配置 ,该 属性 的 默认 值 是 /user/hive/warehouse( 这 个 
目录 在 HDFS 上 ) ,用 户 可 以 根据 实际 情况 来 修改 该 配置 。 


2. 外 部 表 


Hive 中 的 外 部 表 和 关系 型 数据 库 中 的 表 概 念 很 相似 ,也 能 被 过 滤 、 投 影 、 连 接 和 合 
Jf. 与 Hive 中 内 部 表 的 主要 区 别 在 于 外 部 表 只 是 一 个 过 程 , 即 表 的 创建 和 加 载 是 同时 
完成 的 。 外 部 表 中 真正 的 数据 不 是 放 在 自己 表 所 属 的 目录 中 ,而 是 存储 在 (CREATE 
EXTERNAL TABLE … LOCATION)LOCATION 之 后 指定 的 HDFS 路 径 中 。 当 删除 
外 部 表 时 ,并 不 删除 实际 的 数据 ,而 只 是 删除 相应 的 元 数据 。 


3. 分 区 表 


Hive 中 的 分 区 表 是 指 在 创建 表 时 指定 的 Partition 的 分 区 空间 , 即 把 数据 粗 粒度 地 
划分 成 块 。Hive 引入 分 区 表 的 目的 是 可 以 让 查询 发 生 在 小 范围 的 数据 上 ,避免 扫描 整个 
表 内 容 , 从 而 提高 了 数据 查询 效率 。 如 果 需 要 创建 有 分 区 的 表 , 需 要 在 create 表 时 调用 可 
选 参数 partitioned by, 具 体 的 语法 结构 如 下 所 示 。 


CREATE [EXTERNAL] TABIE [IF NOT EXISTS] table name 

[(col. name data type [CaMENT col. comment], ..)] 

[COMENT table comment] 

[PARTITICNED BY (col name data type [COMMENT col comment], ..)] 


一 个 表 可 以 有 一 个 或 多 个 分 区 ;每 个 分 区 以 文件 夹 的 形式 单独 存在 表 文 件 夹 的 目录 
下 ;分 区 是 以 字段 的 形式 在 表 结 构 中 存在 ,通过 describe table 命令 可 以 查看 到 字段 ,但 是 
该 字段 不 存放 实际 的 数据 内 容 ,仅仅 是 分 区 的 表示 。 


4. 桶 表 


对 于 每 个 表 或 者 分 区 , Hive 可 以 进一步 组 织 成 桶 表 (Bucket Table) , 桶 是 更 为 细 粒 度 
的 数据 范围 划分 。 表 和 分 区 者 是 基于 目录 级 别 的 拆 分 数据 ,而 桶 则 是 对 数据 源 数据 文件 
本 身 来 拆 分 数据 ,使 用 桶 的 表 会 将 源 数据 文件 按 一 定 规律 拆 分 成 多 个 文件 。Hive 引入 桶 
表 的 目的 是 为 了 获得 更 高 的 查询 处 理 效 率 , 它 能 使 一 些 特定 的 查询 效率 更 高 ,如 对 于 具有 
相同 的 桶 划分 并 且 Join 的 列 刚 好 就 是 在 桶 里 的 连接 查询 等 。 如 果 需 要 创建 有 桶 的 表 或 
分 区 ,需要 在 create 表 时 调用 可 选 参 数 clustered by (id) into 4 buckets ,具体 的 语法 结构 
如 下 所 示 。 


CREATE TABIE bucketed user(id INT)name STRING) 
CIUSIERED BY (id) INTO 4 BUCKETS; 


关键 字 clustered 声明 划分 桶 的 列 和 桶 的 个 数 ,这 里 以 用 户 的 TD 来 划分 4 个 桶 。 
Hive 采用 对 列 值 哈 希 ,然后 除 以 桶 的 个 数 求 余 的 方式 决定 该 条 记录 存放 在 哪个 桶 当中 。 


CC 


8.6 Hive 数据 类 型 


Hive 支持 很 多 关系 型 数据 库 都 支持 的 基本 数据 类 型 (不 同 长 度 的 整 型 、 浮 点 型 .无 长 
度 限制 的 字符 串 类 型 和 布尔 类 型 等 ) ,同时 还 支持 关系 型 数据 库 中 很 少 出 现 的 4 种 复杂 
据 类 型 (数组 ARRAY 映射 MAP、 结 构 体 STRUCT 和 联合 体 UNION). 
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Hive 支持 多 种 不 同 长 度 的 整 型 . 浮 点 型 ,布尔 类 型 .无 长 度 限制 的 字符 串 类 型 等 。 由 
于 Hive 是 由 Java 语言 编写 的 , Hive 的 基本 数据 类 型 和 Java 的 基本 数据 类 型 也 是 一 一 对 
应 的 (字符 串 类 型 除外 , Hive 的 字符 串 类 型 相当 于 数据 库 的 varchar 类 型 ,该 类 型 是 一 个 
可 变 的 字符 串 ) ,如 数据 类 型 TINYINT、 SMALLINT INT 和 BIGINT 分 别 等 价 于 Java 
语言 中 的 byte、short、int 和 long 数据 类 型 ; Hive 的 浮 点 数据 类 型 FLOAT 和 DOUBLE 
分 别 对 应 Java 语言 中 的 float 和 double 基本 数据 类 型 ; Hive 中 的 布尔 类 型 BOOLEAN 
相当 于 Java 的 基本 数据 类 型 boolean。 表 8.4 列 出 了 Hive 所 支持 的 基础 数据 类 型 。 


表 8.4 Hive 基本 数据 类 型 


数据 类 型 描 g 
TINYINT 1 字 节 (8 位 ) 有 符号 整数 
SMALLINT 2 字 节 (16 位 ) 有 符号 整数 
INT 4 字 节 (32 位 ) 有 符号 整数 
Numeric BIGINT 8 字 节 (64 位 ) 有 符号 整数 
FLOAT 4 字 节 (32 位 ) 单 精度 浮 点 数 
DOUBLE 8 字 节 (64 位 ) 双 精度 浮 点 数 
DECIMAL 可 以 自 定义 精度 进行 扩展 (Hive 0. 11. 0 以 上 支持 ) 
BOOLEAN true/false 
Misc 
BINARY 字 节 数 组 (Hive 0.8 以 上 支持 ) 
TIMESTAMP | 整数 、 浮 点 数 或 字符 串 (Hive 0.8 以 上 支持 ) 
Date/Time us YYYY-MM-DD, Date 类 型 支持 的 范围 是 0000-01-01 — 9999-12-31. 
依赖 于 原始 的 Java 支持 的 日 期 类 型 (Hive 0. 12. 0 以 上 支持 ) 
STRING 字符 串 ( 可 使 用 单 引 号 或 双 引 号 ) 
Sting CHAR 字符 类 型 ,使 用 单 引 号 (Hive 0.13.0 以 上 支持 ) 
SANCHAP 人 


从 表 8. 4 可 以 看 出 , Hive 支持 的 基本 数据 类 型 包括 TINYINT, SMALLINT, INT、 
BIGINT,FLOAT,DOUBLE,BOOLEAN,STRING, TIMESTAMP 和 BINARY, Kf. 
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TIMESTAMP 和 BINARY 数据 类 型 是 Hive 0. 8 版 本 以 上 新 增加 的 数据 类 型 ; 
DECIMAL 数据 类 型 是 Hive 0. 11. 0 版 本 以 上 新 增加 的 数据 类 型 ;VARCHAR 和 DATE 
数据 类 型 是 Hive 0. 12. 0 版 本 以 上 新 增加 的 数据 类 型 ;CHAR 数据 类 型 是 Hive 0. 13. 0 
版 本 以 上 新 增加 的 数据 类 型 。 
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Hive 的 复杂 数据 类 型 包括 ARRAY, MAP,STRUCT 和 UNION, 这 些 复杂 数据 类 
型 都 是 由 基础 类 型 组 成 的 。 其 中 ,ARRAY 类 型 是 由 一 系列 相同 数据 类 型 的 元 素 组 成 ,这 
些 元 素 可 通过 下 标 来 访问 (下 标 从 0 开始 ); MAP 类 型 是 由 Key 一 Value 键 值 对 组 成 ,可 
通过 Key 来 访问 元 素 ;STRUCT 可 以 包含 不 同 数据 类 型 的 元 素 ,这 些 元 素 可 以 通过 “ 变 
fit. 元素” 的 方式 来 得 到 所 需要 的 元 素 ;UNION 类 型 是 联合 多 种 数据 类 型 的 结果 集 , 并 合 
并 为 一 个 独立 的 结果 集 ,该 数据 类 型 是 从 Hive 0. 7. 0 版 本 以 后 开始 支持 的 。 表 8. 5 列 出 
了 Hive 所 支持 的 复杂 数据 类 型 。 


表 8.5 Hive 复杂 数据 类 型 


数据 类 型 # xk m f 

类 似 于 C 语言 的 结构 体 ， 

ARRAY 其 域 可 用 点 号 访问 ARRAY<data_type> 

"m MAP aln, ARE | Apic primitive type, data type 
omplex 
P STRUCT 同 数 据 类 型 的 有 序 序列 ,| STRUCT — col. name ; data type 

以 0 开始 的 整数 进行 索引 | [COMMENT col. comment], ...> 

UNION We UNIONTYPE- data, type, data, type, ...> 


大 部 分 关系 型 数据 库 并 不 支持 这 些 复杂 数据 类 型 ,因为 使 用 这 些 复杂 数据 类 型 可 能 
会 破坏 标准 格式 ,如 在 传统 关系 型 数据 库 中 ,STRUCT 数据 类 型 可 能 需要 多 个 不 同 的 表 
拼装 ,而 表 间 需要 适当 地 使 用 外 键 来 进行 连接 。 这 里 通过 一 个 具体 的 实例 来 说 明 如 何 使 
用 这 些 数据 类 型 ,虚构 一 张 学 生 信息 表 如 下 所 示 。 


CREATE TARIE students ( 
name SIRING, 
sex CR, 
nm INT, 


info ARRAY« STRING> , 
course  MAPCSIRING, FIAP, 
address  SIRUCIK street:STRING, City:STRING, state:STRING, zip:INT»); 


在 Hive 中 新 创建 了 一 个 名 为 students 的 表 , 其 中 ,name( 学 生 姓 名 ) 使 用 字符 串 
STRING 来 表示 ;sex( 性 别 ) 使 用 字符 CHAR 来 表示 ;num( 学 号 ) 使 用 整 型 INT 来 表示 ; 
info( 学 生 信 息 ) 列 表 是 一 个 字符 串 值 数 组 ,该 数组 中 的 每 一 个 元 素 都 将 会 引用 这 张 表 中 
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的 另 一 条 记录 ;course( 课 程 信息 ) 是 一 个 由 Key- Value 对 构成 的 MAP, 其 记录 了 每 门 课 
程 所 对 应 的 成 绩 ;address (学 生地 址 ) 使 用 STRUCT 数据 类 型 ,对 每 个 域 都 做 了 命名 
(street,city state 和 zip) ,并 且 每 个 域 都 指定 了 一 个 特定 的 类 型 (STRING、STRING、 
STRING 和 INT). 
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Hive [i] Java 语言 一 样 , Hive 数据 类 型 之 间 也 可 以 相互 转换 。Hive 包括 隐 式 转换 
(Implicit Conversions) 和 显 式 转换 (Explicitly Conversions) 。 任 何 整数 类 型 都 可 以 隐 式 
转换 成 一 个 范围 更 大 的 类 型 ,如 低 字 节 的 基本 类 型 可 以 转化 为 高 字 节 的 类 型 , 如 
TINYINT,SMALLINT,INT 可 以 转化 为 FLOAT 类 型 ,而 所 有 的 整 型 类 型 .FLOAT 类 
型 及 STRING 类 型 都 可 以 转化 为 DOUBLE 类 型 。 表 8.6 列 出 了 Hive 支持 的 数据 类 型 
之 间 是 否 可 以 进行 隐 式 的 转换 操作 。 


X 8.6 Hive 支持 的 数据 类 型 是 否 可 进行 隐 式 转换 


BL | TY SI | INT | BI FL | DB | DM | ST | VC | TS |DATE| BA 
VOID T E T T T T T T T E T T 
BL T F e F F E E F F E F F E 
TY F T T T T T T Y T T E F F 
SI F P T T T T T T T T P E F 
INT F F F T T T T T: T T p E F 
BI E E F F F JT T T E T F F E 
FL F F F F F Eu T Y T 3: F F F 
DB E E E F F F T T T T F F F 
DM F F P F F F F T q T F F F 
ST F E F F F F T T E T E F E 
VC F F F F F F Y T T T F E F 
TS F F P F F F E F T T T F F 
DATE F F F F F F E E Ë T F T F 
BA E F P F P F F P P F F F T 

注 : 由 于 表格 过 大 ,这 里 对 一 些 较 长 的 数据 类 型 进行 缩写 。 其 中 ,BL 是 BOOLEAN 


的 缩写 ;TY 是 TINYINT 的 缩写 ;SI 是 SMALLINT 的 缩写 ;BI 是 BIGINT 的 缩写 ;FL 
是 FLOAT 的 缩写 ;DB 是 DOUBLE 的 缩写 ;DM 是 DECIMAL 的 缩写 ;ST 是 STRING 
的 缩写 ;VC 是 VARCHAR 的 缩写 ;TS 是 TIMESTAMP 的 缩写 ;BA X BINARY 的 
缩写 。 

K 8.6 中 的 工 是 TRUE 的 缩写 ,表示 可 进行 隐 式 转换 ,F 是 FALSE 的 缩写 ,表示 不 
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可 进行 隐 式 转换 。 若 读者 想 了 解 两 种 数据 类 型 之 间 是 否 可 隐 式 转换 ,可 查看 表 8. 6 的 内 
容 , 如 BOOLEAN 类 型 和 BINARY 类 型 不 能 隐 式 转换 为 其 他 任何 类 型 ,DATE 类 型 和 
TIMESTAMP 类 型 可 以 隐 式 转换 为 STRING 类 型 和 VARCHAR 类 型 。 

Hive 也 支持 显 式 类 型 转换 ,如 将 高 字 节 类 型 转化 为 低 字 节 类 型 ,这 就 需要 使 用 Hive 
的 自 定义 函数 CAST 来 实现 ,CAST 的 语法 结构 如 下 。 


Cast (< expr> AS < TYPE >) 


使 用 CAST 时 需要 注意 以 下 几 点 。 

CD 如 果 要 将 FLOAT 型 的 数据 转换 成 INT 型 数据 ,内 部 操作 是 通过 round() 或 者 
floor O 函数 来 实现 的 ,而 不 是 通过 CAST 实现 。 

(2) 对 于 BINARY 类 型 的 数据 ,只 能 将 BINARY 类 型 的 数据 转换 成 STRING 类 型 ， 
如 果 BINARY 类 型 数据 是 一 个 数字 类 型 ,可 利用 嵌 套 的 CAST 操作 来 转化 ,比如 a 是 一 
个 BINARY 类 型 , 且 是 一 个 数字 类 型 , 则 可 使 用 下 面 的 方式 进行 显 式 转化 。 


cast (cast (a as STRING)as INT) 


(3) 对 于 DATE 类 型 的 数据 ,只 能 在 DATE、TIMESTAMP 及 STRING 类 型 之 间 进 
行 转换 ,具体 转换 方式 如 下 所 示 。 


cast (DATE as DATE) // 将 DAE 类 型 转化 为 BE 类 型 
cast (TIMESTAMP as DATE) // 将 TDESTRP 类 型 转化 为 RTE 类 型 
cast (STRING as DATE) /将 SIRING 类 型 转化 为 DRE 类 型 
// 如 果 SIRING 不 是 YYYY- ME DD 格式 ,结果 会 返回 NULL, 
Cast (DATE as TIMESTAMP) // 将 DAE 类 型 转化 为 TESTRMP 类 型 
cast (DATE as STRING) // 将 DRE 类 型 转化 为 YYY-M DD 的 STRING 类 型 


(4) 如 果 数 据 类 型 转换 不 成 功 , 则 将 返回 的 是 NULL. 


8.7 Hive 基本 操作 


Hive 的 官方 文档 对 Hive 的 基本 操作 有 比较 详细 的 描述 (有 兴趣 的 读者 可 参考 Hive 
官方 网 址 查看 http://wiki. apache. org/hadoop/ Hive /LanguageManual) 。Hive 的 基本 
操作 大 体 可 以 分 为 DDL (Data Definition Language, 数 据 定义 语言 ) 操 作 、DML (Data 
Manipulation Language, 数 据 操作 语言 ) 操 作 和 Hive Shell 操作 三 种 类 型 。 


871 DDL 操 作 


DDL 操作 主要 用 于 数据 表 ( 内 表 、 外 部 表 、 分 区 表 、 桶 表 ) 或 数据 库 的 创建 删除、 修改 
和 显示 等 操作 ,具体 的 操作 指令 如 下 。 
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CREATE DATABASE/SCHEMA, TABIE, VIEW, FUNCTION, INDEX 

IFOP DATABASE/SCHEMA, TABIE, VIEW, INLEX 

TRUNCATE TEE 

ALTER DATABASE/SCHEMA, TABIE, VIEW 

* MSK REPAIR TAHIE (or ALTER TABLE FEDOVER PARTITIONS) 

* SHOW DATABASES/SCHEMAS, TABLES, THLPROPERTIES, PARTITIONS, FUNCTIONS, 
INEXES], COLUMNS, CREATE TEIE 

DESCRIBE DATABASE/SCHEMA, table name, view name 


读者 在 使 用 时 ,要 根据 每 条 指令 的 语法 进行 操作 ,如 创建 一 个 指定 名 字 的 表 的 语法 格 
式 如 下 。 


CREATE [EXTERNAL] TAHIE [IF NOT EXISTS] table name 
[(col. name data type [MENT col comment], ...)] 
[COMENT table comment] 
[PARTITIONED BY (col name data type [MENT col comment], ...)] 
[CIDSTEFED BY (col name, col name, ...) 
[SCRTED BY (col. name [ASC|TESC], ...)] INTO mm buckets BUCKETS] 
[ROW FORMAT row format] 
[STORED AS file format] 
[LOCATION hdfs path] 


有 关 创 建 表 的 语法 格式 说 明 如 下 。 

(D CREATE TABLE 创建 一 个 指定 名 字 的 表 , 如 果 有 相同 名 称 的 表 存 在 , 则 抛 出 异 
常 ;也 可 使 用 IF NOT EXISTS 选项 来 忽略 该 异常 ; 

(2) EXTERNAL 关键 字 用 来 创建 外 部 表 , 在 建 表 时 指定 一 个 指向 实际 数据 的 路 径 
(LOCATION); 

(3) PARTITIONED BY 语句 用 于 创建 有 分 区 的 表 , 一 个 表 中 可 以 有 一 个 或 多 个 分 
区 ,每 个 分 区 单独 在 一 个 目录 下 ; 

(4) CLUSTERED BY 语句 用 于 创建 桶 表 , 可 以 对 表 和 分 区 将 若干 个 列 放 入 一 个 
桶 中 ; 

(5) SORTED BY 语句 用 于 对 数据 进行 排序 ,这 样 可 以 为 特定 应 用 提高 性 能 ; 

(6) COMMENT 语句 用 于 对 表 和 列 进行 注释 ; 

(7) STORED AS 语句 用 于 指定 数据 存储 格式 ,如 果 要 指定 数据 存储 格式 为 纯 文本 ， 
可 以 使 用 STORED AS TEXTFILE. 如 果 数 据 需 要 压缩 ,可 使 用 STORED AS 
SEQUENCE。 

例如 ,创建 一 个 名 为 test table 的 普通 表 : 

CFAE TABIE test table 4 

( 

id m, FBEAR “字段 类 型 


创建 带 有 BUCKET 的 test bucket X: 


创建 EXTERNAL 表 : 


创建 与 已 知 表 相同 结构 的 表 ( 只 复制 表 结 构 ,不 复制 表 内 容 ) : 


另外 ,SHOW DATABASES 语句 用 于 列 出 前 当 数 据 库 ,还 可 以 使 用 LIKE 从 句 利用 正 
则 表达 式 对 数据 库 进 行 过 滤 ( 通 配 符 只 能 是 “ x ?或 者 “|”) ,具体 的 语法 结构 为 : 
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SHOW(DATABASES | SCHEMAS) [LIKE identifier with wildcards]; 


SHOW TABLES 语句 列 出 当前 数据 库 中 所 有 的 表 和 视图 , 若 使 用 IN 从 句 则 列 出 指 
定数 据 库 中 的 所 有 表 和 视图 ,还 可 以 使 用 正则 表达 式 进 行 过 滤 , 具 体 的 语法 结构 为 : 


SHOW TABIES [IN database name] [identifier with wildcards]; 


SHOW PARTITIONS 语句 实现 以 字母 顺序 列 出 指定 表 中 的 所 有 分 区 ,具体 的 语法 
结构 为 : 


SHOW PARTITIONS table name [PARTITION (partition desc)] 


SHOW INDEXES 语句 用 于 输出 特定 表 上 的 所 有 索引 信息 ,包括 索引 名 称 、. 表 名 、 被 
索引 的 列 名 、 保 存 索 引 的 表 名 、 索 引 类 型 和 注释 等 ,具体 的 语法 结构 为 : 


SHOW [FORMATTED] (INCEX| INDEXES)ON table with index [(FROM| IN)cb name] 


SHOW COLUMNS 语句 用 于 输出 给 定 表 中 包含 分 区 列 的 所 有 列 , 具 体 的 语法 结 
构 为 : 


SHOW COLUMNS (FRCM| IN) table name [(FRCM| IN)do name] 


SHOW FUNCTIONS 语句 用 于 输出 匹配 正则 表达 式 的 自 定 义 和 内 置 的 函数 (使 用 
”输出 所 有 函数 ) ,具体 的 语法 结构 为 : 


* 


SHOW FUNCTIQNS"a. * " 


SHOW LOCKS 语句 用 于 显示 表 或 者 分 区 上 的 锁 ,具体 的 语法 结构 为 ， 


SHOW IOCKS< table name» ; 

SHOW IOCKS< table name» EXTENLED; 

SHOW IOCKS« table name» PARTITION (< partition desc»); 

SHOW IOCKS« table name» PARTTTION(« partition desc» )EXTENDED; 

SHOW TRANSACTIONS 语句 用 于 查询 当前 打开 或 者 终止 的 事务 ,具体 的 语法 结 
构 为 : 


SHOW TRANSACTIONS 


SHOW COMPACTIONS 语句 用 于 显示 当前 Hive 事务 被 使 用 时 ,所 有 正在 被 压缩 
或 预定 压缩 的 表 和 分 区 ,具体 的 语法 结构 为 : 


SHOW OMPACTIOS 
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DESCRIBE DATABASE 语句 用 于 显示 给 定数 据 库 的 注释 \ 在 HDFS 上 的 路 径 和 数 
据 库 的 拥有 者 信息 ,具体 的 语法 结构 为 : 


DATABASE db name 


DESCRIBE TABLE/VIEW/COLUMN 语句 用 于 显示 给 定 表 包括 分 区 列 在 内 的 所 
有 列 ,如 果 使 用 了 EXTENDED 关键 字 , 则 以 Thrift 序列 化 形式 显示 表 的 元 数据 ;如 果 使 
用 FORMATTED 关键 字 , 则 以 表格 形式 显示 元 数据 ;如 果 表 拥有 复合 类 型 的 列 , 则 通过 
“ 表 名 . 复合 列 名 ”的 形式 查看 该 列 的 属性 ,具体 的 语法 结构 为 : 


[EXTENLED| FORMATTED] [db name.]table name[DOT col name([DOT field name] | [DOT '$elem$ '] | 
[DOr '$ key$ '] | [DOT '$value$ ']) * ] 
#'$ elen$ ' 用 于 数组 ,'$ keys ' 用 于 mp f #Ë , 'S values ' 用 于 map 的 键 值 


DESCRIBE PARTITION 语句 用 于 显示 指定 分 区 列 的 元 数据 ,具体 的 语法 结构 为 : 


TESCRIEE [EXTENCED| FORMATTED] [do name.]table name PARTITION partition spec 


DROP TABLE 用 于 删除 一 个 内 部 表 的 同时 会 删除 表 的 元 数据 和 数据 ,删除 一 个 外 
部 表 , 只 删除 元 数据 而 保留 数据 。ALTER TABLE 语句 允许 用 户 改 变现 有 表 的 结构 ,用 
户 可 以 增加 列 / 分 区 ,改变 Serialize/Deserilize、 增 加 表 、 表 本 身 重 命 名 等 。 


872 DML 操 作 


DML 操作 主要 用 于 数据 的 加 载 . 添 加 、 查 询 等 操作 。 本 节 将 重点 介绍 加 载 数据 
LOAD, 添加 数据 INSERT 和 查询 数据 SELECT 这 三 种 操作 。 


1. LOAD 


LOAD 操作 只 是 单纯 的 复制 /移动 操作 ,即将 数据 文件 移动 到 Hive 表 对 应 的 位 置 ， 
具体 的 语法 结构 如 下 。 


3IOND 
IOAD DATA [IOCAL] INPATH 'filepath' [OVERWRITE] INTO 
TABIE tablename [PARTITION (partcoll- vall, partcol2- val2 ..)] 


有 关 LOAD 的 语法 格式 说 明 如 下 。 

CD 如 果 指 定 了 LOCAL 关键 字 , 则 LOAD 命令 会 去 查找 本 地 文件 系统 中 的 
filepath; 如 果 没 有 指定 LOCAL XF ,filepath 若 给 定 一 个 完整 的 URL, Hive 会 直接 使 
用 该 URL ,和 否则 会 使 用 Hadoop 配置 文件 中 定义 的 schema 和 authority, 

(2) filepath 用 于 指定 数据 路 径 , 可 以 指定 相对 路 径 、 绝 对 路 径 、 包 含 模 式 的 完 
整 URL。 

(3) 如 果 指 定 了 OVERWRITE 关键 字 , 则 目标 表 / 分 区 中 的 内 容 会 被 删除 ,然后 再 将 
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filepath 指向 的 文件 /目录 中 的 内 容 添 加 到 表 / 分 区 中 ;如 果 目 标 表 / 分 区 已 有 一 个 文件 , 且 
文件 名 和 filepath 中 的 文件 名 冲突 , 则 现 有 的 文件 会 被 新 文件 所 蔡 代 。 

例如 ,为 前 面 所 创建 的 表 test_table( 假 定 该 表 所 在 的 目录 为 /usr/hadoop/hive) 加 载 
数据 (数据 文件 路 径 为 /usr/hadoop/data/20150708. txt) ,加 载 数据 命令 如 下 。 


IORD DATA ICCAL INPATH ' /usr/hadocp/data/20150708.txt' 
WEFWRITE INIO TABIE test. table PARTITION (pt= '20150708") ; 


该 命令 表示 从 本 地 磁盘 把 文件 “/usr/hadoop/data/20150708. txt” 复 制 到 表 test _ 
table 分 区 pt 为 *20150708” 的 目录 下 。 当 “/usr/hadoop/data/20150708. txt” 文 件 加 载 成 
功 后 , 会 放置 在 hdfs://masterl. hadoop: 900/usr/Hadoop/hive/test 
20150708/20150708. txt。 


table/pt = 


2. INSERT 


INSERT 操作 是 将 查询 结果 插入 到 Hive 表 中 ,支持 基本 插入 模式 、 多 插入 模式 \ 动 
态 分 区 模式 等 ,Hive 0. 8 版 本 以 上 新 增 了 INSERT INTO。 

1) 基本 插入 模式 

INSERT 的 基本 插入 模式 的 语法 结构 如 下 。 


# 基 本 插入 模式 
INSERT OVERWRTTIE TABIE tablenamel [PARTITION (partcoll- vall, partcol2- val? ..) [IF NOT EXISTS]] select 
.Statementl FROM frm statement; 


INSERT OVERWRITE 语句 将 会 覆盖 表 或 者 分 区 中 任何 存在 的 数据 ,但 如 果 为 分 
区 指定 了 IF NOT EXISTS 关键 字 则 不 会 覆盖 分 区 中 的 数据 。 

2) 多 插入 模式 

INSERT 的 多 插入 模式 最 小 化 了 要 求 的 数据 扫描 次 数 ,Hive 可 以 仅 扫描 输入 数据 一 
次 并 应 用 不 同 的 查询 操作 符 , 然 后 将 数据 插入 多 个 表 中 ,其 语法 结构 如 下 。 


# 多 插入 模式 

FRM fram statement 

INSERT OVERWETTE TABLE tablenamel [PARTITION (partooll-vall, partool2-val? ..)] select statementl 
[INSERT OVERWRTTE TARIE tablename2 [PARTITION ..] select statement?] .. 


3) 动态 分 区 模式 

E INSERT 的 动态 分 区 模式 中 ,用 户 可 以 在 PARTITION 从 句 中 仅 指 定 分 区 列 的 名 
称 , 分 区 列 的 值 是 可 选 的 。 如 果 给 定 分 区 列 值 , 则 该 分 区 列 为 静态 分 区 ,否则 为 动态 分 区 。 
每 个 动态 分 区 列 对 应 select 子 句 的 一 个 输入 列 ,动态 分 区 列 必 须 在 select 子 句 中 所 有 输 
入 列 的 最 后 指定 ,并 且 与 它们 的 PARTITION 从 句 出 现 的 顺序 保持 一 致 ,其 语法 结构 
如 下 。 


OD EREEREER 


# 动 态 分 区 模式 


INERT OFFWRITE TRIE tablename ARITI (partcoll [= vall], partcol2 [= val2] ..) select statement FROM 


fram statement 


在 默认 情况 下 动态 分 区 模式 是 禁用 的 ,需要 修改 hive. error. on. empty. partition fE 
动态 分 区 插 和 人 产生 空 结果 时 ,是否 抛 出 异常 ) hive. exec. dynamic. partition true/false, J 


否 允 许 动态 分 区 插入 )、hive. exec. 


dynamic. partition. mode(strict/nostrict, strict 模式 中 


用 户 至 少 指定 一 个 静态 分 区 以 防 用 户 覆 盖 所 有 分 区 ,nostrict 模式 中 所 有 分 区 都 允许 是 


动态 的 ) 等 配置 参数 来 实现 动态 分 
4) INSERT INTO 


区 插入 。 


INSERT INTO 语句 用 于 添加 数据 到 表 或 者 分 区 中 ,并且 保 持 现存 数据 的 完整 性 ,在 
插入 数据 时 必须 通过 指定 所 有 分 区 列 的 值 来 指定 表 的 分 区 ,其 语法 结构 如 下 。 


#INSERT INIO 


INSERT INTO TABIE tablenamel [PARTITION (partooll- vall, partcol?- val? ...)] select statementl FROM 


fram statement 


3. SELECT 


Hive 中 的 SELECT 语句 与 传统 SQL 语句 中 的 SELECT 有 些 不 同 ,该 语句 可 以 作为 


UNION 查询 一 个 子 语句 或 者 另 一 


SETRCT [ALL | DISTINCT]select expr, 
FROM table reference 

[WHERE where condition] 

GROUP BY col. list] 

[HAVING where condition] 

ORDER BY col. list] 

CIDSIER BY col list 


[LIMIT number] 


个 查询 的 子 查询 ,具体 的 语法 结构 为 : 


[WITH CoammonTableExpressicn(, CommonTableExpressicn) * ] 


select expr, ... 


| [DISTRIBUIE BY col list] [SORT BY œl list] 


HX SELECT 语句 的 语法 格式 说 明 如 下 。 

(1) COMMON TABLE EXPRESSION 是 由 WITH 子 句 指定 的 简单 查询 得 到 的 临 
时 结果 集 , 仅 在 一 条 语句 的 执行 范围 内 定义 ; 

(2) WHERE where condition 从 句 是 布尔 表达 式 , 只 有 满足 此 表达 式 的 记录 才 会 返 
回 , 从 Hive 0. 13 版 本 开始 ,一 些 子 查询 可 以 出 现在 WHERE 从 句 中 ,这 些 子 查询 的 结果 
被 作为 IN 和 NOT IN 语句 中 的 常量 ; 

(3) ALL | DISTINCT 语句 用 于 区 分 对 重复 记录 的 处 理 , 默 认为 ALL, RIR A H 
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有 记录 ,DISTINCT 表示 去 掉 重复 的 记录 ; 

(4) 当 使 用 GROUP BY col_list 从 句 时 ,SELECT 语句 只 能 包含 那些 包含 在 
GROUP BY 从 句 中 的 列 ,或 者 在 SELECT 语句 中 使 用 聚 类 函数 COUNT/SUM 等 ; 

(5) ORDER BY col list 从 句 与 SQL 中 的 ORDER BY 相似 ,用 于 对 输入 做 全 局 排 
序 , 都 支持 ASC 和 DESC; 

(6) SORT BY col list 从 名 与 ORDER BY 语法 格式 相似 ,不 是 全 局 排序 ,在 数据 进 
入 Reducer 之 前 ,对 某 个 Reducer 进行 排序 ,如 果 存 在 多 个 Reducer, SORT BY 只 保证 每 
Ñ Reducer 的 输出 有 序 ,不 保证 全 局 有 序 ; 

(7) CLUSTER BY 和 DISTRIBUTE BY 从 句 与 Map/Reduce 脚本 一 起 使 用 ， 
DISTRIBUTE BY 将 数据 分 到 同一 个 Reducer. CLUSTER BY 是 DISTRIBUTE BY 和 
SORT BY 的 简捷 方式 ,除了 具有 DISTRIBUTE BY 的 功能 外 ,还 会 对 该 字段 进行 排序 ; 

(8) LIMIT number 语句 可 以 限制 查询 的 记录 数 ,其 中 查询 的 结果 是 随机 选择 的 ,如 
果 需 要 返回 前 几 条 记录 ,可 先 对 结果 进行 排序 再 使 用 LIMIT AJ, 


8.8 Hive 内 置 运算 符 


Hive 有 4 种 类 型 的 运算 符 , 即 关系 运算 符 、 算 术 运 算 符 .逻辑 运算 符 和 复杂 运算 符 。 
本 节 将 介绍 每 种 类 型 运算 符 的 含义 和 基本 用 法 。 


881 关系 运算 符 


关系 运算 符 被 用 来 比较 两 个 操作 数 。Hive 中 可 用 的 关系 运算 符 如 表 8.7 所 示 。 
表 8.7 Hive 可 用 的 关系 运算 符 


运算 符 #g# fE # i 
A=B 所 有 基本 类 型 | 如 果 表达 式 A 等 于 表达 式 B, 结 果 为 TRUE, 和 否则 为 FALSE 
A!=B 所 有 基本 类 型 | 如 果 表达 式 A 不 等 于 表达 式 B, 返 回 TRUE, FUE E FALSE 
A<B 所 有 基本 类 型 | TRUE, 如 果 表 达 式 A 小 于 表达 式 B; 否 则 FALSE 
A<=B 所 有 基本 类 型 | TRUE, 如 果 表 达 式 A 小 于 或 等 于 表达 式 B; @ WJ FALSE 
A>B 所 有 基本 类 型 | TRUE, 如 果 表 达 式 A 大 于 表达 式 B; 否 则 FALSE 
A>=B 所 有 基本 类 型 | TRUE, 如 果 表 达 式 A 大 于 或 等 于 表达 式 B; 否 则 FALSE 
A IS NULL 所 有 类 型 TRUE, 如 果 表 达 式 的 计算 结果 为 NULL; F FALSE 
AISNOT NULL | 所 有 类 型 FALSE, 如 果 表达 式 A 的 计算 结果 为 NULL; AW TRUE 
A LIKE B 字符 串 TRUE, 如 果 字 符 串 模式 A 匹配 到 B; 否 则 FALSE 
A RLIKE B 字符 串 人 
A REGEXP B 字符 串 等 同 于 
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假设 Hive 数据 库 中 有 一 张 名 为 student 的 表 ,该 表 由 字段 num, name, dept, score 组 


成 ,数据 内 容 如 下 。 


当 查 询 学 号 为 1001 学 生 的 详细 信息 时 ,可 通过 下 面 的 查询 命令 实现 。 


当 查 询 学 生成 绩 大 于 90 分 的 学 生 信息 时 ,可 使 用 下 面 的 查询 命令 实现 。 
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算术 运算 符 用 于 两 个 操作 数 之 间 的 常见 算术 运算 ,其 返回 类 型 为 数字 类 型 。Hive 中 
可 用 的 算术 运算 符 如 表 8. 8 所 示 。 
表 8.8 Hive 可 用 的 算术 运算 符 
运算 符 & “í o =m 5 
A+B | 所 有 数字 类 型 | A 加 B 的 结果 和 
A-B | 所 有 数字 类 型 | AME BHAR GE 
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续 表 

运算 符 操 作 描 述 示 例 

AxB 所 有 数字 类 型 | ARU BHAR hive> select 1 * 2 from test; 
A/B 所 有 数字 类 型 | A 除 以 B 的 结果 hive> select 1/2 from test; 
A%B 所 有 数字 类 型 | A 除 以 B. 产 生 的 余数 hive> select 1542 from test; 
A&B 所 有 数字 类 型 | A 和 B 的 按 位 与 结果 hive> select 18-2 from test; 
A|B 所 有 数字 类 型 | A 和 B 的 按 位 或 结果 hive> select 1|2 from test; 

A^B 所 有 数字 类 型 A 和 B 的 按 位 异 或 结果 hive> select 1 ^ 2 from test; 

~A 所 有 数字 类 型 | A 按 位 非 的 结果 hive> select ~2 from test; 
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逻辑 运算 符 用 于 两 个 操作 数 之 间 的 逻辑 表达 ,其 返回 类 型 为 TRUE 或 者 FALSE, 
Hive 中 可 用 的 逻辑 运算 符 如 表 8. 9 所 示 。 


表 8.9 Hive 可 用 的 逻辑 运算 符 


运算 符 操 作 描 g 
A ANDB boolean TRUE, 如 果 A 和 B 都 是 TRUE; 和 否则 FALSE 
A && B boolean 类 似 于 A AND B 
AORB boolean TRUE, 如 果 A 或 B 或 两 者 都 是 TRUE; 和 否则 FALSE 
All B boolean 类 似 于 A OR B 
NOTA boolean TRUE, 如 果 A 是 FALSE; Jl] FALSE 
!A boolean 类 似 于 NOT A 


例如 ,查询 student 表 中 学 生成 绩 在 90 分 以 上 的 计算 机 系 (CS) 学 生 的 详细 信息 ,可 


使 用 下 面 的 查询 命令 实现 。 
hive»SEIECT * FRM student WHERE score >= 90 && dept- CS; 
4----- 4-------------- 4-------- 4-------------------- * 
| nm | | dept | sore | 
4----- + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 +------------------------------ + 
11003 | vera (e q SD. 1 
11004 | michelle es 
11005 | alice IS | 130 | 
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复杂 运算 符 用 于 提供 一 个 表达 式 来 接 人 复杂 类 型 的 元 素 。Hive 中 可 用 的 复杂 运算 
符 如 表 8. 10 所 示 。 


表 8.10 Hive 可 用 的 复杂 运算 符 


运算 符 » f 描 述 
Lor [xi ide Sud EHE ABA STORE 
M[k J | Nie T Map<K, V> key 的 类型 返回 对 应 于 映射 中 关键 字 的 值 

Sx | S 是 一 个 结构 BMSH xF 


8.9 Hive 内 置 函 数 


Hive 中 可 用 的 内 置 函 数 与 SQL 语句 中 的 函数 比较 相似 ,可 分 为 数值 计算 函数 .日 期 
函数 .条 件 函数 .字符 串 函 数 、 集 合 统计 函数 .复杂 类 型 长 度 统计 函数 等 。 
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Hive 数值 计算 函数 有 取 整 函数 、 取 随机 数 函 数 、 对 数 函 数 、 笑 运算 函数 等 。Hive 中 
可 用 的 数值 计算 函数 如 表 8. 11 所 示 。 


表 8.11 Hive 可 用 的 数值 计算 函数 


语 法 返回 值 说 明 
ee a) BIGINT | 返回 double 类 型 的 整数 值 部 分 (遵循 四 合 
round(double a. int d) DOUBLE 指定 精度 取 整 函数 : 返回 指定 精度 d 的 double 类 型 
floorCdouble a) BIGINT uw 返回 等 于 或 者 小 于 该 double 变量 的 最 
ceilt double a) BIGINT pietas 返回 等 于 或 者 大 于 该 double 变量 的 最 


取 随 机 数 函 数 : 返回 一 个 0 一 1 范围 内 的 随机 数 。 如 


DOUBLE | 果 指定 种 子 seed, 则 会 得 到 一 个 稳定 的 随机 数 序列 
expl double a) DOUBLE — | 自然 指数 函数 返回 自然 对 数 。 的 a 次 广 
log10(double a) DOUBLE 以 10 为 底 对 数 函数 : 返回 以 10 为 底 的 a 的 对 数 
log? double a) DOUBLE — | 以 ? 为 底 对 数 函数 , 返回 以 2 为 底 的 a 的 对 数 


log(double base. double a) | DOUBLE 对 数 函 数 : 返回 以 base 为 底 的 a 的 对 数 


pow(double a, double p) DOUBLE FARA: jE [E] a B p IK hÉ 
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续 表 


语 法 


返回 值 说 Hg 


power(double a, double p) 


DOUBLE TZARA: 返回 a BJ) pK, pow 功能 相同 


sqrt(double a) 


DOUBLE 开平 方 函数 : 返回 a 的 平方 根 


binCBIGINT a) 


STRING 二 进 制 函数 : 返回 a 的 二 进 制 代码 表示 


hexCBIGINT a) 


十 六 进 制 函数 : 如 果 变 量 是 INT 类 型 ,那么 返回 a 的 
STRING 十 六 进 制 表 示 ; 如 果 变 量 是 STRING 类 型 , 则 返回 该 


字符 串 的 十 六 进 制 表示 
akacia STRING 反 转 十 六 进 制 函数 : 返回 该 十 六 进 制 字符 串 所 代表 的 
Tp 
conv ( BIGINT num, int 进 制 转换 函数 : 将 数值 num 从 from. base 进 制 转化 到 
. STRING 
from, base, int to. base) to base 进 制 


abs(Cdouble a) absCint a) 


DOUBLE INT | 绝对 值 函 数 : 返回 数值 a 的 绝对 值 


pmod (int a, int b) pmod 
(double a, double b) 


INT DOUBLE | 正 取 余 函数 : 返回 正 的 a 除 以 b 的 余数 


sin(double a) 


DOUBLE 正弦 函数 : 返回 a 的 正弦 值 


asin(double a) 


DOUBLE MIERA: 返回 a 的 反正 弦 值 


cos(double a) 


DOUBLE 余弦 函数 : 返回 a 的 余弦 值 


acos(double a) 


DOUBLE 反 余弦 函数 : 返回 a 的 反 余弦 值 


positive (int a) positive 
(double a) 


INT DOUBLE | positive 函数 : 返回 a 


negative C int a) negative 
(double a) 
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INT DOUBLE | negative 函数 : 返回 一 a 


Hive 日 期 函数 有 UNIX 时 间 戳 转 日 期 函数 .日 期 时 间 转 日 期 函数 .日 期 转 年 /月 /小 
时 /分 / 秒 函 数 、 日 期 比较 函数 等 。Hive 中 可 用 的 日 期 函数 如 表 8. 12 所 示 。 


表 8.12 Hive 可 用 的 日 期 函数 


语 法 返回 值 说 明 
dex adsis Chine UNIX 时 间 戳 转 日 期 函数 : 转化 UNIX 时 间 戳 (从 1970-01- 
: EM! | STRING | 01 00:00:00 UTC 到 指定 时 间 的 秒 数 ) 到 当前 时 区 的 时 间 
unixtime[ , string format]) 格式 
E EEAS BIGINT Poan UNIX 时 间 戳 函数 : 获得 当前 时 区 的 UNIX 时 


unix _ timestamp ( string 


date) 


日 期 转 UNIX B$ [8] E PR B. 转换 格式 为 "yyyy-MM-dd 
BIGINT | HH:mms:ss" 的 日 期 到 UNIX 时 间 惟 ,如果 转化 失败 , 则 返 
回 0 
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续 表 

语 法 返回 值 说 明 
unix _ timestamp ( string — 指定 格式 日 期 转 UNIX 时 间 戳 函数 : 转换 pattern 格式 的 
date，string pattern) 日 期 到 UNIX 时 间 截 ,如 果 转 化 失败 , 则 返回 0 
to date(string timestamp) | STRING | 日 期 时 间 转 日 期 函数 : 返回 日 期 时 间 字 段 中 的 日 期 部 分 
year(string date) INT 日 期 转 年 函数 : 返回 日 期 中 的 年 
month (string date) INT 日 期 转 月 函数 : 返回 日 期 中 的 月 份 
day (string date) INT 日 期 转 天 函数 : 返回 日 期 中 的 天 
hour (string date) INT 日 期 转 小 时 函数 : 返回 日 期 中 的 小 时 
minute (string date) INT 日 期 转 分 钟 函数 : 返回 日 期 中 的 分 钟 
second (string date) INT 日 期 转 秒 函 数 : 返回 日 期 中 的 秒 
weekofyear (string date) INT 日 期 转 周 函 数 : 返回 日 期 在 当前 的 周 数 
eniti a 日 期 比较 函数 : 返回 结束 日 期 减 去 开始 日 期 的 天 数 
Seq (string startdate, STRING E ZU 函数 : 返回 开始 日 期 startdate 增加 days 天 后 的 
ewe (string startdate, STRING r Dt 函数 : 返回 开始 日 期 startdate 减少 days 天 后 的 
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Hive 条 件 函 数 有 IF 函数 、 非 空 查找 函数 、 条 件 判断 函数 等 。Hive 中 可 用 的 条 件 函 
数 如 表 8.13 所 示 。 


表 8.13 Hive 可 用 的 条 件 函数 


语 法 返回 值 说 m 
if Cboolean testCondition，T| „ |M #8 Sk. 3 4 fF testCondition 为 TRUE 时 ,返回 
valueTrue, T valueFalseOrNulD valueTrue; 否 则 返回 valueFalseOrNull 
COALESCECT vl, T v2, ++) 工 非 空 查找 函数 : 返回 参数 中 的 第 一 个 非 空 值 ;如 果 所 有 


值 都 为 NULL, 那 么 返回 NULL 


CASE a WHEN b THEN c 
[WHEN d THEN e] * [ELSE] T 
f] END 


条 件 判断 函数 : 如 果 a 等 于 b, 那 么 返回 c; 如 果 a 等 于 d， 
那么 返回 e; 否 则 返回 f 
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Hive 字符 串 函 数 有 字符 串 长 度 函 数 、 字 符 串 反 转 函 数 、. 字 符 串 连接 函数 、 带 分 隔 符 串 
连接 函数 等 。Hive 中 可 用 的 字符 串 函数 如 表 8. 14 所 示 。 
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38.14 Hie 可 用 的 字符 串 函数 


语 法 


返回 值 说 有 明 


length(string A) 


INT 字符 串 长 度 函 数 : 返回 字符 串 A 的 长 度 


reverse(string A) 


STRING | 字符 串 反 转 函数 : 返回 字符 串 A 的 反 转 结果 


concat(string A, string 也 …) 


字符 串 连 接 函 数 : 返回 输入 字符 串 连 接 后 的 结果 , 支 


STRING | 持 任意 个 输入 字符 曲 


concat ws(string SEP, string A, 
string B**) 


带 分 隔 符 字符 串 连 接 函 数 : 返回 输入 字符 串 连接 后 的 


STRING | 结果 ,SEP 表示 各 个 字符 串 间 的 分 隔 符 


substr (string A, int start ) 
substring(string A, int start) 


字符 串 截取 函数 : 返回 字符 串 A 从 start 位 置 到 结尾 


STRING BEAR 


substr(string A, int start, int 
len) substring (string A, int 
start, int len) 


字符 串 截取 函数 : 返回 字符 串 A 从 start f ROT 8 ,长 


STRING | 度 为 len 的 字符 串 


upper(string A)ucase(string A) 


STRING | 字符 串 转 大 写 函 数 : 返回 字符 串 A 的 大 写 格式 


lower(string A) case(string A) 


STRING | 字符 串 转 小 写 函数 : 返回 字符 串 A 的 小 写 格式 


trim(string A) 


STRING | 去 空格 函数 : 去 除 字符 串 两 边 的 空格 


ItrimCstring A) 


STRING | 左边 去 空格 函数 : 去 除 字符 串 左边 的 空格 


rtrim(string A) 


STRING | 右边 去 空格 函数 : 去 除 字 符 串 右边 的 空格 


regexp replace (string A, string 
B, string C) 


ENRERE MAM: 将 字符 串 A 中 的 符合 Java E 
STRING | 则 表达 式 B 的 部 分 蔡 换 为 C。 注 意 , 在 有 些 情 况 下 要 
使 用 转 义 字符 ,类 似 Oracle 中 的 regexp_replace 函数 


regexp extract (string. subject, 
string pattern. int index) 


正则 表达 式 解 析 函 数 : 将 字符 串 subject 按照 pattern 


STRING | 正则 表达 式 的 规则 拆 分 ,返回 index 指定 的 字符 


parse_url(string urlString, string 
partToExtract Fs string 
keyToExtract]) 


URL 解析 函数 : 返回 URL 中 指定 的 部 分 。 
partToExtract 的 有 效 值 为 : HOST，PATH， 
QUERY, REF, PROTOCOL, AUTHORITY, FILE, 
and USERINFO 


STRING 


get _ json object Cstring json _ 
string, string path) 


JSON 解析 函数 : 解析 JSON 的 字符 串 json_string, 返 
STRING | El path 指定 的 内 容 。 如 果 输 入 的 JSON 字符 串 无 效 ， 
那么 返回 NULL 


space(int n) 


STRING | 空格 字符 串 函数 : 返回 长 度 为 n 的 字符 串 


repeat(string str. int n) 


STRING | 重复 字符 串 函 数 : 返回 重复 n 次 后 的 str 字符 串 


split(string str. string pat) 


分 割 字 符 串 函数 : 按照 pat 字符 串 分 割 str, 会 返回 分 


ARRAY | 徊 后 的 字符 申 数组 
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Hive 集合 统计 函数 有 个 数 统计 函数 .总 和 统计 函数 .平均 统计 函数 .最 小 值 统计 函数 、 
最 大 值 统计 函数 , 非 空 集合 总 体 变 量 函 数 等 。Hive 中 可 用 的 集合 统计 函数 如 表 8. 15 所 示 。 
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58.15 Hive 可 用 的 集合 统计 函数 
语 法 k [EB f 说 RB 


个 数 统计 函数 : count * ) 统 计 检 索 出 的 行 
的 个 数 , 包 括 NULL 值 的 行 ; count (expr) 
INT 返回 指定 字段 的 非 空 值 的 个 数 ; count 
(DISTINCT expr[，expr_.]) 返 回 指定 字 
段 的 不 同 的 非 空 值 的 个 数 

总 和 统计 函数 : sum(col) 统 计 结 果 集 中 col 
sum(col)sum(DISTINCT col) DOUBLE 的 相 加 的 结果 ;sum(DISTINCT col) 统计 
结果 中 col 不 同 值 相 加 的 结果 
平均 值 统计 函数 : avg(col) 统 计 结 果 集中 
avg(col)avg(DISTINCT col) DOUBLE col 的 平均 值 ;avg (DISTINCT col) 统计 结 
果 中 col 不 同 值 相 加 的 平均 值 


最 小 值 统计 函数 : 统计 结果 集中 col 字段 


count ( * ) count Cexpr) count 
(DISTINCT expr[ , expr . D 


min(col) DOUBLE 的 最 小 值 

xum ER mimin. 统计 结果 集中 col 字段 
非 空 集合 总 体 变量 函数 : 统计 结果 集中 

i DOUBEE col 非 空 集合 的 总 体 变量 (忽略 null 

uut: db wa sea 非 空 集合 样本 变量 函数 , 统计 结果 集中 


col 非 空 集合 的 样本 变量 (忽略 null) 


总 体 标准 偏离 函数 : 该 函数 计算 总 体 标准 
stddev_pop(col) DOUBLE 偏离 ,并 返回 总 体 变量 的 平方 根 ,其 返回 值 
5j VAR POP 函数 的 平方 根 相同 


样本 标准 偏离 函数 ; 该 函数 计算 样本 标准 


stddev_samp (col) DOUBLE 偏离 
中 位 数 函 数 : 求 准确 的 第 p 个 百 分 位 数 ,p 
percentile( BIGINT col, p) DOUBLE 必须 介 于 0 和 1 之 间 , 但 是 col 字段 目前 只 


支持 整数 ,不 支持 浮 点 数 类 型 


近似 中 位 数 函 数 : 求 近似 的 第 p 个 百 分 位 
数 ,p 必须 介 于 0 和 1 之 间 , 返 回 类 型 为 


percentile_approx( DOUBLE col. 


L BD DOUBLE double, fH ë col 字段 支持 浮 点 类 型 ,参数 B 
ii 控制 内 存 消耗 的 近似 精度 ,B 越 大 ,结果 的 
准确 度 越 高 
ARRAY < STRUCT | 直方 图 : 以 b 为 基准 计算 col 的 直方 图 
histogram numeric(col, b) greges wa 
(x, y> 信息 


8.10 Hive 实例 


在 Hadoop 生态 圈 中 ,Hive 实质 上 是 一 个 SQL 解析 引擎 Hive 可 以 把 SQL 查询 转 
换 为 MapReduce 中 的 Job 来 运行 。 这 里 以 WordCount 项 目 为 例 ( 请 读者 查看 5. 4. 2 节 
中 的 WordCount 类 ) ,通过 MapReduce 的 方式 需要 写 很 多 Java 代码 ,但 是 如 果 使 用 Hive 
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就 比较 简单 ,具体 的 做 法 如 下 。 


hive> create database db; # 创 建 一 个 名 为 中 的 数据 库 
HE 中 数据 库 下 创建 一 个 名 为 src data 的 表 , 存 储 路 径 为 :/db/wordoount/src data 
hive> create external table src data (line string) row format delimited fields terminated by '\n' stored 
as textfile location '/db/wordoount/src data" 
create table words (word string); # 根 据 MapReduce 的 规则 ,对 每 行 数据 拆 分 成 单词 
insert into table words select explode (split (Lire, " "))as word fram src data; 
select word, count (* ) from db.words group by word; 
# 实 现 单词 统计 


在 该 实例 中 ,首先 创建 了 一 个 名 为 “db” 的 数据 库 , 在 该 数据 库 下 创建 了 一 个 名 为 
“src_data" 的 数据 表 ( 用 于 存储 导入 进来 的 文件 ,字段 可 以 自己 设置 ,表明 存储 什么 内 
容 ) ,字段 名 为 text, 类 型 为 strings X src data 中 的 数据 可 以 从 本 地 导入 ,也 可 以 将 
HDFS 里 的 数据 导入 到 该 表 中 ,本 实例 是 将 本 地 的 数据 导入 到 sre data 数据 表 中 。 数 据 
导入 成 功 之 后 ,要 使 用 MapReduce 规则 来 进行 单词 统计 的 话 , 还 需要 创建 一 张 表 ,用 于 存 
储 分 割 字符 串 后 的 单词 ,这 里 创建 一 个 名 为 words 的 表 。 然 后 编写 Hive 的 HQL, 其 中 
split 是 拆 分 函数 (与 Java 中 的 split 功能 相同 ,按照 空格 拆 分 ), Hive 将 HQL 解析 成 
MapReduce 任务 ,这样 就 基本 实现 了 单词 统计 功能 。 最 后 通过 group by 实现 单词 统计 功 
能 。 

请 读者 认真 对 比 通过 MapReduce 和 通过 Hive 的 HQL 这 两 种 方式 实现 的 
WordCount 的 不 同 之 处 ,可 以 明显 地 感觉 到 使 用 Hive 进行 操作 更 加 简单 、 易 用 。Hive 
是 针对 批量 长 时 间 数 据 分 析 设 计 的 ,不 能 做 到 交互 式 的 实时 查询 ,对 于 一 些 复 杂 的 机 器 学 
习 算法 .复杂 的 科学 计算 的 场景 并 不 适用 ,而 是 适用 于 海量 数据 处 理 .数据 挖掘 .数据 分 析 
等 应 用 场景 。 
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数据 分 析 与 挖掘 是 从 海量 的 、 不 完整 的 .有 噪声 的 数据 中 发 现 隐 含 在 其 中 有 价值 的 、 
潜在 有 用 知识 的 前 提 。 有 目前 开源 的 数据 分 析 与 挖掘 工具 比较 多 ,但 适用 于 大 数据 分 析 与 
挖掘 的 并 不 多 。 其 中 ,数据 分 析 与 挖掘 框架 Mehout 是 基于 Hadoo 实现 的 ,把 很 多 传统 的 数 
据 挖 掘 算法 转化 为 MepReduce 的 实现 方式 ,大 大 提升 了 算法 可 处 理 的 数据 量 和 处 理性 能 。 
本 章 将 以 Mehout 为 例 来 介绍 数据 分 析 与 挖掘 的 相关 知识 。 


9.1 Mahout 概述 


Mahout 是 机 器 学 习 和 数据 挖掘 的 一 个 分 布 式 框架 ,是 基于 Hadoop 的 MapReduce 
实现 了 部 分 数据 挖掘 算法 ,将 很 多 以 前 运行 于 单机 上 的 数据 挖掘 算法 转化 为 MapReduce 
模式 的 实现 方式 ,从 而 大 大 提高 了 数据 处 理 的 性 能 。Mahout 最 初 起 源 于 2008 年 ,当时 
只 是 Apache Lucene 的 一 个 子 项 目 , 主 要 是 为 了 解决 文本 搜索 中 的 分 类 和 到 类 问题 而 被 
提出 的 。 随 后 Mahout 吸收 了 一 个 名 为 Taste 的 协同 过 滤 开 源 项 目 ,并 逐渐 发 展 成 为 具 
有 较为 完备 的 机 器 学 习 能 力 。 在 2009 年 时 ,发 布 了 Mahout Release 0. 1 和 Release 0. 2 
版 本 ;在 2010 年 时 ,发 布 了 Mahout Release 0. 3 和 Release 0. 4 版 本 ;在 2010 年 4 月 时 ， 
Mahout 成 为 Apache 的 顶级 项 目 ; 随 后 Mahout 加 入 了 对 Hadoop 的 支持 之 后 ,Mahout 
的 核心 目标 是 利用 Hadoop 的 并 行 计 算 与 处 理 能 力 实现 可 扩展 的 分 布 式 机 器 学 习 框 架 。 
目前 Mahout 的 最 新 版 本 为 Mahout 0. 10(2015. 4. 11) ,该 版 本 已 经 可 以 支持 一 些 传统 的 
数据 挖掘 任务 , 即 聚 类 、 分 类 ,推荐 过 滤 、 频 繁 子 项 挖掘 等 。 

Mahout 是 具有 可 扩充 能 力 的 机 器 学 习 类 库 ,在 提供 了 机 器 学 习 框 架 的 同时 ,还 实现 
了 一 些 可 扩展 的 机 器 学 习 领 域 经 典 算法 , 供 开 发 人 员 在 Apache 的 许可 下 免费 使 用 ,帮助 
开发 人 员 更 加 方便 快捷 地 创建 智能 应 用 程序 。Mahout 经 常 使 用 于 对 海量 数据 处 理 和 分 
析 的 情况 ,通过 Mahout 库 所 提供 的 算法 构建 在 MapReduce 框架 之 上 ,将 算法 的 输入 ,中 
间 结 果 和 输出 结果 构建 于 HDFS 分 布 式 文件 系统 之 上 ,从 而 使 得 Mahout 具有 高 吞吐 量 、 
高 并 发 性 和 高 可 靠 性 的 特点 。 另 外 ,Mahout 框架 具有 良好 的 扩展 性 和 容错 性 ,文档 化 
好 、 实 例 丰富 、 完 全 源 代码 开放 技术 社区 活跃 、. 易 于 使 用 等 特点 ,已 被 广泛 应 用 于 推荐 引 
3E . 聚 类 、 分 类 、 相 关 性 分 析 等 应 用 场景 。 

注 : 如 果 读 者 想 对 Mahout 有 更 深入 的 了 解 ,建议 认真 阅读 文章 MapReduce for 
Machine Learning on MulticoreU* ,此 后 又 并 入 了 更 多 广泛 的 机 器 学 习 方 法 。 
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9.2 Mahout 安装 配置 


Mahout 是 运行 在 Hadoop 集群 之 上 的 机 器 学 习 算 法 库 , 是 用 Java 语言 编写 完成 的 。 
在 安装 Mahout 之 前 ,需要 保证 Hadoop 集群 服务 能 够 正常 运行 。Mahout 的 安装 过 程 比 
较 简单 ,具体 的 安装 步骤 如 下 。 
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Mahout 需要 JDK 1. 6 版 本 或 更 高 版 本 的 支持 ,由 于 Mahout 的 安装 是 在 前 面 已 搭建 
好 的 Hadoop 集群 上 进行 的 ,因此 非常 简单 ,只 需 在 Mahout 官网 (http://mahout. 
apache. org/) 下 载 与 Hadoop 版 本 相应 的 Mahout 版 本 (本 实例 下 载 的 为 Mahout 0. 10. 0 
版 本 ,并 将 Mahout 安装 在 Hadoop 集群 的 Masterl. Hadoop 节点 上 ) ,下 载 完成 后 解压 到 
Masterl. Hadoop 节点 的 /opt/ 目 录 下 完成 Mahout 的 安装 ,具体 命令 如 下 。 


#tar - zxvf mahout- distribution- 0.10.0.tar.gz —— -- 解 压 Hadoop 安 装 文件 
#chown -R hadoop:hadocp /apt/mahout- distribution- 0.10.0 


本 实例 使 用 的 为 Mahout 0. 10 版 本 ,每 个 版 本 都 有 Mahout-distribution-version-src 
(Maven 工具 管理 维护 的 源 代码 ,面向 于 研究 和 拓展 算法 ) 和 Mahout-distribution-version 
(可 导入 算法 集 jar 包 , 面 向 于 直接 应 用 ) 两 种 类 型 的 发 布 文本 。 本 实例 使 用 Mahout- 


distribution-version 版 本 。 
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Mahout 安装 成 功 之 后 ,下 一 步 将 要 配置 三 个 环境 变量 : MAHOUT HOME,PATH 
和 CLASSPATH ,三 个 变量 的 设置 如 表 9. 1 所 示 。 


表 9.1 三 个 变量 的 设置 


变量 名 变 量 值 
MAHOUT_HOME | 指明 Mahout 安装 路 径 , 此 路 径 下 包括 lib, bin, examples, docs, conf 等 文件 夹 
PATH 使 得 系统 可 以 在 任何 路 径 下 识别 Mahout 命令 
CURSSATH Pe erri 为 Mahout 加 载 类 路 径 , 只 有 类 在 CLASSPATH 中 ,Mahout 命 


修改 /etc/profile 文件 ,将 MAHOUT_HOME、PATH 和 CLASSPATH 添加 到 
profile 配置 文件 中 ,具体 执行 命令 如 下 。 


#vi /etc/profile -- 把 Badoop 安 装 路 径 添 加 到 配置 文件 profile rh 
export MAHOUT HME= /opt/mahout- distribution- 0.10.0/ 
export PATH= $ PATH:$ MAHOUT HME/bin 
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export. CLASSPATH- $ CTASSPATH:S MAHOUT. HOME/lib 


#souroe /etc/profile -立即 生效 

#su hacocp 一 -切换 为 hadoop JH P* 

$ start- all.sh -- 启 动 Hacoop SERE 

$mahout -- help -查看 Mahout 目前 拥有 的 算法 


Funning on hadocp, using /apt/hadoop- 2.6.0/bin/hadoop and HADOOP ONE. DIR- 
MAHOUT- JÆ: /opt/mahout— distribution- 0.10.0/mahout-- examples- 0.10.0- jcb. jar 
Valid program names are: 

arff.vector: : Generate Vectors fram an AREF file or directory 

baumwelch: : Baum- Welch algorithm for unsupervised HMM training 

buildforest: : Build the random forest classifier 

canopy: : Canopy clustering 

Cat: : Print a file or resource as the logistic regression models would see it 

Cleansvd: : Cleanup and verification of SVD output. 

clusterdump: : Dump cluster output to text 

clusterpp: : Groups Clustering Output In Clusters 

amdump: : Dump confusion matrix in HIML or text formats 


到 此 ,Mahout 就 安装 完毕 ,如 果 想 了 解 各 个 算法 的 入 口 信息 及 相应 参数 ,可 以 查看 
MAHOUT_HOME/con[/driver. classes. default. props 文件 和 mahout 志方 法 名 二 -h 命 


令 查 看 参数 。 
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Mahout 安装 完成 之 后 ,可 以 通过 Mahout 自 带 的 算法 来 验证 是 否 能 够 正常 运行 ,这 
里 使 用 Mahout 自 带 的 K-means 算法 ,具体 的 Mahout 测试 过 程 如 下 。 


1. 准备 测试 数据 


本 实例 的 测试 数据 来 自 加 州 大 学 公开 的 数据 资源 集 ,这 里 下 载 了 用 于 聚 类 测试 的 数 
据 集 synthetic_control. data 文件 (http://archive. ics. uci. edu/ml/datasets. html) 。 


2. 创建 测试 目录 


下 载 的 数据 文件 需要 复制 到 Hadoop 集群 的 HDFS 文件 系统 中 ,因此 要 先 启 动 
Hadoop 集群 ,在 HDFS 上 创建 测试 目录 (这 里 目录 名 为 testdata), 再 把 数据 文件 
synthetic_control. data 导入 到 testdata 目录 中 ,具体 的 操作 命令 如 下 。 


$ hacocp fs -mkdir testdata 一 -创建 测试 目录 testata 
$ hadog fs -put synthetic oontrol.data testdata 
-上 传 测试 数据 到 ges 
$ mhart org.apache.mahout .clustering.syntheticoontrol.kmeans .Jdb 
— -使 用 Mabout 中 K- means 8 28 6: 
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Running cn hadoop, using /apt/hadoop- 2.6.0/bin/hadocp and FADOOP GONE DIR- 
MAHOUT- JÆ: /opt/mahout-- distribution- 0.10.0/mahout-- examples- 0.10.0- jcb.jar 
$ hadog fs - 1s output -查看 结果 

Warning: $ FADOOP HOME. is deprecated. 


Found 15 items 
-rw-r--r--  1hadogo hadoop 194 2015- 07- 15 15:24 /output/ policy 
drwxrwxrwx — hadoop hadoop 0 2015- 07- 15 15:24 /output/clusteredPoints 
drwxrwxrwx 一 hadoop hadoop 0 2015- 07- 15 15:22 /output/clusters- 0 
drwxrwxrwx —— hadoop hadoop 0 2015- 07- 15 15:22 /output/clusters- 1 
drwxrwxrwx 一 hadoop hadoop 0 2015- 07- 15 15:24 /output/clusters- 10- final 
drwxrwxrwx 一 hadoop hadoop 0 2015- 07- 15 15:23 /output/clusters- 2 
drwxrwxrwx  — hadoop hadoop 0 2015- 07- 15 15:23 /output/clusters- 3 
drwxrwxrwx 一 hadoop hadoop 0 2015- 07- 15 15:23 /output/clusters- 4 
drwxrwxrwx 一 hadoop hadoop 0 2015- 07- 15 15:23 /output/clusters- 5 
drwxrwxrwx 一 hadoop hadoop 0 2015- 07- 15 15:23 /output/clusters- 6 
drwxrwxrwx 一 hadoop hadoop 0 2015- 07- 15 15:23 /output/clusters- 7 
drwxrwerwx ”一 hadoop hadoap 0 2015- 07- 15 15:23 /output/clusters- 8 
drwxrwerwk — hacioop hadoop 0 2015- 07- 15 15:23 /output/clusters- 9 


drwxrwxrwx — hadoop hadoop 0 2015- 07- 15 15:22 /hadoop/output/data 
drwxrwxrwx — hadoop hadoop 0 2015- 07- 15 15:22 /output/randam- seeds 


如 果 可 以 看 到 如 上 所 示 的 结果 ,说 明 Mahout 已 正常 运行 。 上 述 结果 中 ， 
clusteredPoints 文件 中 存放 的 是 最 后 的 聚 类 的 结果 ,将 clusterid 和 documents-id 都 展示 
出 来 了 ;clusters-N 文件 表示 第 N 次 聚 类 的 结果 ,其 中 N 为 某 类 的 样本 数目 (0 一 9)， 
clusters-N 结果 类 型 是 (Text,Cluster) ;data 文件 存放 的 是 原始 数据 。 感 兴趣 的 读者 可 以 
再 尝试 其 他 算法 ,如 canopy 算法 .dirichlet 算法 .meanshift 算法 等 。 


9.3 Mahonut 算法 集 


目前 ,Mahout 已 是 Apache Software Foundation(ASF) 旗 下 的 顶级 开源 项 目 , 提 供 
了 一 些 可 扩展 的 机 器 学 习 领 域 经 典 算法 的 实现 ,是 比较 完备 的 算法 库 。Mahout 算法 集 
目前 还 在 不 断 扩充 中 ,任何 对 该 项 目 感 兴趣 的 个 人 或 组 织 都 可 以 加 入 到 该 项 目的 社区 中 
做 出 贡献 。 在 Mahout 中 实现 的 机 器 学 习 算 法 如 表 9. 2 所 示 。 


表 9.2 Mahout 中 实现 的 机 器 学 习 算法 


算法 分 类 算 法 名 中 文 名 
Logistic Regression 逻辑 回归 
分 类 算法 Bayesian 贝 叶 斯 
Support Vector Machines(SVM) 支持 向 量 机 
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续 表 
算法 分 类 算 法 名 中 x 名 
Perceptron 感知 器 算法 
Neural Network 神经 网 络 
Random Forests 随机 森林 
分 类 算法 
Restricted Boltzmann Machines 有 限 玻 耳 效 曼 机 
Online Passive Aggressive 在 线 学 习 算法 
Hidden Markov Models 隐 马 尔 科 夫 模型 
Canopy Clustering Canopy 聚 类 
K-means Clustering 天 均值 算法 
Fuzzy K-means 模糊 K 均值 
Expectation Maximization EM 聚 类 (期 望 最 大 化 聚 类 ) 
聚 类 算法 Mean Shift Clustering 均值 漂移 聚 类 
Hierarchical Clustering 层次 聚 类 
Dirichlet Process Clustering 狄 里 克 雷 过 程 聚 类 
Latent Dirichlet Allocation LDA R% 
Spectral Clustering 谱 聚 类 
模式 挖掘 算法 | Parallel FP Growth Algorithm 并 行 FP Growth 算法 
回归 Locally Weighted Linear Regression 局 部 加 权 线 性 回归 
Singular Value Decomposition 奇异 值 分 解 
Principal Components Analysis 主 成 分 分 析 
"- Independent Component Analysis 独立 成 分 分 析 
Gaussian Discriminative Analysis 高 斯 判别 分 析 
进化 算法 并 行 化 了 Watchmaker 框架 Mahout 0.7 版 本 中 被 移 除 
Non-distributed recommenders Taste( UserCF, ItemCF, SlopeOne) 
W/W | me wee Š end 
Distributed Recommenders ItemCF 
RowSimilarityJob 计算 列 间 相似 度 
向 量 相似 度 计算 
VectorDistanceJob 计算 向 量 间 距离 
集合 方法 扩展 — | Collections 扩展 了 Java 的 Collections 类 


K 9. 2 所 列举 的 算法 并 不 是 都 并 行 化 处 理 了 ,有 些 还 只 能 运行 于 单机 上 ,没有 被 转化 
为 MapReduce 模式 ,如 Hidden Markov Models 算法 。 另 外 ,Mahonut 所 提供 的 这 些 算法 


TD 


可 通过 命令 进行 操作 ,并 不 是 Mahout 的 核心 价值 ,需要 理解 算法 以 及 学 会 怎样 运用 算法 
去 解决 实际 场景 才 是 其 核心 价值 。 如 要 了 解 Mahout 库 中 算法 的 实现 机 制 和 并 行 化 原 
理 ,可 以 下 载 Mahout 源码 版 查看 相应 的 算法 实现 。 在 查看 Mahout 源码 版 时 应 注意 ， 
Mahout 项 目 由 多 个 子 项 目 组 成 ,各 子 项 目 分 别 位 于 源码 的 不 同 目录 下 ,如 mahout-core 
是 Mahout 核心 模块 ,位 于 /core 目录 下 ;mahout-math 用 于 提供 一 些 数据 通用 的 计算 模 
块 ,位 于 /math 目录 下 ;mahout-utils 用 于 提供 一 些 通用 的 工具 性 模块 ,位 于 /utils 目录 
下 ;examples 是 对 Mahout 中 各 种 机 器 算法 的 实例 。 


9.4 分 类 算法 


分 类 算法 是 解决 分 类 问题 的 方法 ,是 数据 挖掘 ,机 器 学 习 和 模式 识别 中 一 个 重要 的 研 
究 领 域 。 分 类 算法 需要 先 通过 对 已 知 类 别 的 分 类 数据 进行 训练 ,从 中 发 现 分 类 规则 ,以 此 
来 预测 新 数据 的 类 别 , 从 而 完成 分 类 。Mahout 中 已 有 多 种 常用 的 分 类 算法 ,如 逻辑 回 
归 、 贝 叶 斯 ` 支 持 向 量 机 、 感 知 器 算法 .神经 网 络 、 随 机 森林 ,有限 玻 耳 效 曼 机 等 ,其 中 大 多 
数 分 类 算法 都 是 为 了 在 Hadoop 集群 上 运行 而 编写 的 。 可 以 使 用 这 些 分 类 算法 实现 文本 
分 类 、 客 户 类 别 分 类 、 风 险 评估 等 应 用 。 下 面 将 对 Mahout 自 带 的 几 种 分 类 算法 做 简单 
介绍 。 
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逻辑 回归 是 比较 常用 的 机 器 学 习 算 法 之 一 ,是 在 线性 回归 的 基础 上 ,套用 了 一 个 逻辑 
函数 ,利用 该 函数 对 未 知 参 数 进行 估计 。 在 Mahout 中 逮 辑 回归 主要 使 用 随机 梯度 下 降 
(Stochastic Gradient Decent,SGD) 的 思想 来 实现 该 算法 ,Mahout 中 逻辑 回归 具体 的 实 
现 类 是 org. apache. mahout. classifier. sgd. TrainLogistic 和 org. apache. mahout. 
classifier. sgd. RunLogistic, 其 中 ,TrainLogistic 是 建立 模型 ,RunLogistic 是 进行 模型 评 
估 。 下 面 通 过 具体 的 实例 来 说 明 Mahout 中 逮 辑 回归 算法 如 何 应 用 。 

首先 准备 测试 数据 .本 实例 的 测试 数据 donut. csv 使 用 Mahout 官网 Logistic Regression 
自 带 的 donut. csv 进行 训练 ,也 可 从 本 书 配 套 资 料 中 的 Demo/LogisticRegression 中 查 
看 。 测 试 数据 准备 好 之 后 ,上 传 到 HDFS 上 ,并 通过 trainlogistic 训练 模型 ,在 终端 运行 
以 下 命令 。 

# 上 传 到 mFS 

Shadoop fs — put donut.csv 


# 训 练 模型 

$mahout trainlogistic -- input donut.csv V 
-- output ./model V 

- — target color - - categories 2 N 

— -predictors x y - — types numeric V 

— — features 20 - - passes 100 - - rate 50 
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HX trainlogistic 的 参数 解释 ,可 在 终端 输入 以 下 命令 查看 。 


$mahout trainlogistic -h 
Funning on hadocp, using /apt/hadoop- 2.6.0/bin/hadoop and FADOOP CONF. DIR- 
MHT- JÆ: /opt/mahout— distribution- 0.10.0/mabout-- examples- 0.10.0- jcb.jar 
Unexpected - h while processing 
- -helpl- - quiet | - — input.| - — output | - - target | - - categories| - - predictors| 
— - types| - - passes| - - lanixda| - - rate| - - ncBias| - - features 
Usage: 
[- -help - - quiet - - input. < input^ - - output. < output? - - target < target 
— - categories < number» - - predictors < pl» [< p> ...] - - types 
«tb Kt ...] - - passes < passes» - - lanbda < landa» - - rate < leamingRate» 
— - ncBias - - features < numFeatures» ] 


— -help|- - quiet | - - input.| - - output | - - target | - - categories| - - predictors| 
— - types| - - passes| - - lanbda| - ~ rate| - - ncBias| - - features 

…( 中 间 部 分 省 略 ) 
15/07/17 16:26:48 INFO MahoutDriver: Program took 88 ms (Minutes: 
0.0014666666666666667) 


其 中 ,input 为 输入 数据 ;output 为 输出 模型 文件 ;一 target 预测 的 变量 (输入 数据 要 
求 第 一 行为 变量 名 ); categories 为 预测 变量 的 取 值 个 数 ; predictors 为 参与 建 模 的 变量 ; 
types Jy FM ZE tt HY XÆ KI (numeric, word, text 类 型 中 的 其 中 一 个 类 型 );passes 为 训练 时 
对 输入 数据 测试 的 次 数 ;features 为 内 部 随机 向 量 维度 ;rate 为 学 习 速 率 。 

然后 使 用 模型 评估 RunLogistic 命令 来 预测 结果 ,其 中 测试 数据 可 使 用 Mahout 官网 
LogisticRegression 自 带 的 donut-test. csv 进行 评估 ,也 可 从 本 书 配套 资料 中 的 Demo/ 
LogisticRegression 中 查看 ,具体 的 评估 命令 如 下 。 


其 中 ,input 就 是 测试 数据 ;model 是 模型 文件 ;scores 打印 预测 值 和 原始 值 对 比 结 
果 ;auc 打印 auc 值 ;confusion 打印 模糊 矩阵 。 有 关 逻 辑 回归 算法 的 基本 原理 及 本 实例 的 
运行 结果 请 读者 查看 有 关机 器 学 习 的 书籍 ,并 自己 动手 实践 加 以 理解 。 
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贝 叶 斯 分 类 是 一 种 十 分 简单 的 算法 , 源 于 古典 概率 理论 ,是 通过 某 对 象 的 先 验 概率 ， 
利用 贝 叶 斯 公式 计算 出 其 后 验 概 率 , 即 该 对 象 属于 某 一 类 的 概率 ,选择 具有 最 大 后 验 概率 
的 类 作为 该 对 象 所 属 的 类 。 这 类 算法 均 以 贝 叶 斯 定理 为 基础 , 故 统称 为 贝 叶 斯 分 类 。 贝 
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叶 斯 定理 如 下 : 
p(B|A)= = s 

贝 叶 斯 做 了 一 个 简单 的 前 提 假 设 , 即 给 定 目标 值 属 性 之 间 相 互 条 件 独 立 (属性 间 不 存 
在 依赖 关系 )。 其 中 ,p(A1B) 表 示 事 件 B 发 生 的 前 提 下 ,事件 A 发 生 的 概率 ;p(A) 表 示 
事件 A 发 生 的 概率 ;p(B) 表 示 事 件 B 发 生 的 概率 。 这 样 就 可 以 求 得 事件 A 发 生 的 前 提 
下 ,事件 B 发 生 的 概率 。 贝 叶 斯 定理 给 出 了 最 小 化 误差 的 最 优 解决 方法 ,可 用 于 分 类 和 
预测 。 

Mahout 主要 实现 了 两 种 贝 叶 斯 分 类 器 , 即 朴 素 贝 叶 斯 算法 (Traditional Naive 
Bayes) 和 互补 型 朴素 贝 叶 斯 算法 (Complementary Naive Bayes)。 后 一 种 贝 叶 斯 分 类 器 
是 在 朴素 贝 叶 斯 基础 上 增加 了 结果 分 析 功 能 (org. apache. mahout. classifier. 
ResultAnalyzer 类 )。 在 Mahout 中 ,与 贝 叶 斯 分 类 器 有 关 的 主要 类 有 BayesUtils、 
NaiveBayesModel、StandardNaiveBayesClassifier、ComplementaryNaiveBayesClassifier 
(相应 的 类 在 org. apache. mahout. classifier. naivebayes 包 中 ) 。 有 兴趣 的 读者 可 以 查看 
相应 源码 ,查看 其 基本 原理 和 并 行 化 实现 方式 。 下 面 通 过 具体 的 实例 来 说 明 Mahout 中 
贝 叶 斯 算法 如 何 应 用 。 

本 实例 的 测试 数据 由 20 个 新 闻 组 数据 组 成 ,收集 大 约 两 万 个 新 闻 组 文档 ,均匀 地 分 
HE 20 个 不 同 的 集合 中 。 我 们 将 使 用 Mahout 的 Bayes Classifier 创造 一 个 模型 ,实现 将 
一 个 新 文档 分 类 到 这 20 个 新 闻 组 集合 中 。 数 据 集 20news-bydate. tar. gz 文件 可 从 本 书 
配套 资料 中 的 Demo/NativeBayes 中 查看 ,数据 准备 好 之 后 ,首先 要 对 数据 进行 解压 , 具 
体 的 操作 命令 如 下 。 


# 解 压 数据 文件 
$ tar - zxvf 20news- bydate.tar.gz 


# 上 传 到 HES 
$ hadocp fs -put 20news- bydate- test. 
$ hadocp fs -put 20news- bydate- train 


解压 后 的 数据 集 按时 间 分 为 训练 数据 (20news-bydate-train) 和 测试 数据 (20news- 
bydate-test) ,每 个 数据 文件 为 一 条 信息 ,文件 头 部 几 行 指定 消息 的 发 送 者 .长度 .类 型 、 使 
用 软件 以 及 主题 等 ,然后 用 空 行将 其 与 正文 隔 开 , 正 文 没有 固定 格式 。 

下 一 步 需 要 将 数据 集 进 行 转换 ,因为 使 用 Mahout 自 带 的 示例 程序 对 朴素 贝 叶 斯 模 
型 进行 训练 的 类 TrainNaiveBayesJob 的 输入 是 经 过 mahout seqdirectory 和 mahout 
seq2sparse 向 量化 的 序列 化 文件 ,输出 是 一 个 model( 训 练 器 ) 。seqdirectory 对 应 的 源 文 
件 是 org. apache. mahout. text. SequenceFilesFromDirectory, 使 用 mahout seqdirectory 
命令 可 以 将 文本 文件 转 成 Hadoop 的 SequenceFile 文件 ，SequenceFile 文件 是 一 种 二 进 
制 存储 的 key-value 键 值 对 ;seq2sparse 是 将 上 面 生 成 的 SequenceFile 转 成 向 量 文件 ,对 
应 的 源 文 件 是 org. apache. mahout. vectorizer. SparseVectorsFromSequenceFiles。 
seq2sparse 实际 上 是 一 个 计算 文本 TF.DF.TFIDF 的 过 程 ,依次 产生 的 向 量 文件 目录 结 
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构 如 下 。 
(1) tokenized-documents 目录 : 保存 着 分 词 过 后 的 文本 信息 。 
(2) wordcount Ht: 保存 着 全 局 的 词汇 出 现 的 次 数 。 
(3) dictionary. file-0 目录 : 保存 着 这 些 文本 的 词汇 表 。 
(4) tf-vectors 目录 : 保存 着 以 TF 作为 权 值 的 文本 向 量 。 
(5) df-count 目录 : 保存 着 文本 的 频率 信息 。 
(6) frequcency-file-0 目录 : 保存 着 词汇 表 对 应 的 频率 信息 。 
(7) tfidf-vectors 目录 : 保存 着 以 TFIDF 作为 权 值 的 文本 向 量 。 
将 数据 集 转换 为 向 量 文件 的 具体 操作 命令 如 下 。 


最 后 ,训练 和 检验 朴素 贝 叶 斯 模型 ,并 查看 训练 后 的 结构 ,具体 的 操作 命令 如 下 。 


sos missing Vaca: QUO 
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该 算法 可 用 来 处 理 大 规模 数据 的 分 类 ,对 于 特征 值 选取 越 准确 的 ,正确 率 会 越 高 , 算 
法 简单 容易 理解 。 有 关 贝 叶 斯 算法 的 基本 原理 及 本 实例 的 运行 结果 ,请 读者 查看 有 关机 
器 学 习 的 书籍 并 自己 动手 实践 加 以 理解 。 


943 随机 森林 


随机 森林 算法 是 Leo Breiman 于 2001 年 提出 的 一 种 新 型 分 类 和 预测 模型 ,是 用 随机 
的 方式 建立 一 个 森林 ,森林 里 有 很 多 决策 树 ,每 个 决策 树 之 间 没 有 关联 , 当 有 一 个 新 的 输 
入 样本 进入 时 ,就 让 森林 中 的 每 棵 决策 树 分 别 进行 判断 该 样本 应 该 属于 哪 一 类 ,被 选择 最 
多 的 一 类 就 是 该 样本 所 属 的 类 。Mahout 实现 了 两 种 随机 森林 算法 ,一 种 是 MapReduce 
模式 的 (Partial, 请 查看 org. apache. mahout. classifier. df. mapreduce. partial 包 中 的 相关 
类 ), 另 一 种 是 单机 运行 模式 的 (Breiman, 请 查看 org. apache. mahout. classifier. df. 
BreimanExample 类 )。 这 里 以 MapReduce 模式 的 随机 森林 算法 Partial 为 例 ,介绍 
Mahout 中 随机 森林 的 用 法 。 

Mahout 中 MapReduce 模式 随机 森林 Partial 的 实现 主要 分 为 以 下 三 步 。 

第 一 步 , 对 数据 进行 描述 (org. apache. mahout. classifier. df. tools. Describe) , 即 输入 
训练 集 , 对 数据 进行 描述 后 生成 . info 文件 。 

第 二 步 , 生 成 决策 森林 (org. apache. mahout. classifier. df. mapreduce. BuildForest) , 
输入 为 训练 集 和 第 一 步 生 成 的 . info 文件 ,运行 后 生成 forest. seq 文件 ,该 文件 记录 了 生 
成 的 所 有 决策 树 。 

第 三 步 , 预 测 结果 (org. apache. mahout. classifier. df. mapreduce. TestForest) ,输入 
为 测试 集 和 决策 森林 (forest. seq) ,运行 后 生成 测试 集 的 预测 结果 及 统计 预测 结果 的 准确 
率 。 下 面 通过 具体 的 实例 来 说 明 Mahout 中 随机 森林 算法 如 何 应 用 。 

本 实例 的 数据 集 KDDTrain 十 . arff 和 KDDTest 十 . arff 文件 可 从 本 书 配 套 资料 中 的 
Demo/RandomForests 中 查看 ,数据 准备 好 之 后 ,打开 数据 文件 .删除 其 中 以 @ 开 头 的 数 
据 , 并 将 数据 上 传 到 HDFS, 具 体 的 操作 命令 如 下 。 
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# 上 传 到 mes 
$ hadog fs - put KDDTraint .arff 
$ hadog fs -Put KDDTest+ .arff 


其 中 ,KDDTrain 十 . arff 为 训练 数据 ,KDDTest 十 . arff 为 测试 数据 。 然 后 执行 随机 
森林 算法 的 描述 (Describe)、 训 练 (BuildForest) 和 预测 (TestForest) 三 个 步 又。 描述 
(Describe) 的 具体 操作 命令 如 下 。 


# 生 成 数据 集 描述 文件 
$ mhart org.apache.mahout.classifier.df.tools.Describe - p KDUTrain* .arff V 
— f /testdata/KIDTraint .info -dN3C2NC4NC8N2CI9NL 


在 Describe 中 ,-p 为 训练 集 路 径 ;-f 为 输出 描述 文件 的 路 径 ;-d 为 训练 集中 每 条 记录 
属性 的 类 型 串 。 最 后 的 "N3C2NC4NC8N2CI9NL? 字 符 用 来 描述 数据 属性 ,如 
N 是 Numerical 的 缩写 ;L 是 Label 的 缩写 ;C 是 Categorical 的 缩写 ;I 是 Ignore 的 缩写 ;9 
表示 9 个 都 是 N。 

当 生 成 数据 集 描述 文件 之 后 ,下 一 步 将 要 对 数据 集 进行 训练 , 即 生成 决策 森林 ,具体 
的 操作 命令 如 下 。 

# 生 成 决策 森林 

$ mahout org.apache mahout.classifier.df.mapredace.BuildForest V 


一 Drapred.max.split.size= 1874231 V 
-d KIDTraint .arff -ds KDDTrain* .info - 815 -p -t 100 -o /nsl- forest. 


其 中 ,-sl 表示 属性 数目 ;-t 表 示 构 建 多 少 棵 树 ;-d 表示 训练 数据 文件 ;-ds 表示 数据 集 
地 址 ;-o 表示 模型 输出 地 址 ;-p 表示 平行 计算 ,默认 用 内 存 模 式 ,如果 数 据 量 比较 大 , 则 启 
动 该 配置 。 

最 后 ,对 测试 数据 进行 分 类 ,即使 用 决策 森林 分 类 新 数据 ,具体 的 操作 命令 如 下 。 


# 使 用 决策 森林 分 类 新 数据 
$ mahout org.apache .mahout .classifier.df.mapreduoe. TestForest V 
-i KDUTestt .arff -ds KLDTraint .info -m /nsl- forest -a -mr -o /predictions 


其 中 ,-i 表 示 测 试 文件 路 径 ;-ds 表示 数据 描述 文件 路 径 ;-m 表示 决策 森林 文件 所 在 
路 径 ;-mr 表示 使 用 MapReduce 进行 分 布 式 计算 ;-o 表示 输出 文件 路 径 。 本 实例 的 运行 
结果 请 读者 自己 动手 实践 加 以 理解 。 有关 更 多 的 Mahout 分 类 算法 ,有 兴趣 的 读者 可 以 
认真 查看 org. apache. mahout. classifier 包 中 的 相应 类 。 


9.5 聚 类 算法 


聚 类 是 将 数据 集 划 分 为 若干 相似 对 象 组 成 的 多 个 组 或 篮 的 过 程 , 使 得 同一 组 中 对 象 
间 的 相似 度 最 大 化 ,不 同 组 中 对 象 间 的 相似 度 最 小 化 , 即 组 内 同 质 , 组 间 差 异 。 数 据 对 象 
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间 相 似 性 的 衡量 有 很 多 经 典 算法 ,如 欧 几 里 得 距离 算法 .余弦 距离 算法 、 皮 尔 逊 相关 系数 
算法 等 (Mahout 提供 了 几 种 常见 的 距离 度量 实现 ,请 查看 org. apache. mahout. common. 
distance 包 下 的 相应 类 )。Mahout 中 已 基于 这 些 相 似 度 衡量 实现 了 多 种 常用 的 聚 类 算 
法 ,如 Canopy RÆK 均值 .层次 聚 类 等 ,可 以 使 用 这 些 聚 类 算法 实现 文本 聚 类 、 客 户 类 
别 聚 类 等 应 用 场景 中 。 下 面 将 对 Mahout 自 带 的 几 种 聚 类 算法 做 简单 介绍 。 
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Canopy 聚 类 算法 是 将 每 个 对 象 用 多 维特 征 空间 里 的 一 个 点 来 表示 ,通过 一 个 快速 近 
似 距 离 度 量 和 两 个 距离 阔 值 T, — T, 将 对 象 分 组 到 类 的 一 种 简单 快捷 的 聚 类 算法 。 该 算 
法 的 基本 思想 是 设置 一 个 空 的 Canopy 集合 ,将 第 一 个 点 作为 集合 中 的 一 个 点 ,接着 读 取 
下 一 个 点 与 该 集合 中 的 每 个 点 计算 距离 distr dist< Ti , 则 为 Canopy 集合 中 的 一 点 ; 若 
dist T, , 则 不 能 作为 Canopy 集合 中 的 一 点 ;车 dist — T; , 则 标记 该 点 已 于 该 Canopy 集 
合 强 关联 ; 若 该 点 不 存在 强 关 联 的 Canopy 集合 中 的 点 , 则 为 该 点 创建 一 个 新 的 Canopy 
集合 ,直到 所 有 点 都 遍历 完 为 止 。 从 Canopy 算法 的 基本 思想 可 以 看 出 ,dist<T, 点 属于 
7H B.BUG — NR, T, dist T, 的 点 可 能 属于 多 个 簇 。 

Mahout 中 Canopy 算法 的 实现 主要 分 为 以 下 三 步 。 

第 一 步 ,将 输入 的 数据 处 理 为 Canopy 算法 可 使 用 的 输入 格式 (Mahout 的 聚 类 分 类 
过 程 中 ,需要 将 数据 转化 成 向 量 Vector, 其 实现 的 接口 是 org. apache. mahout. math. 
Vector, 也 可 通过 继承 Mahout 中 AbstractVector 来 实现 自己 的 向 量 模型 ) 。 

第 二 步 ,将 每 个 Mapper 对 划分 到 自己 的 点 根据 阔 值 T, 和 T, 来 标记 Canopy, 输 出 
每 个 Canopy 的 中 心 向 量 ( 该 过 程 由 org. apache. mahout. clustering. canopy. 
CanopyMapper 类 实现 ) ,每 个 Reducer 再 接收 来 自 Mapper 的 中 心 向 量 , 加 以 整合 并 计算 
出 最 后 的 Canopy 的 中 心 向 量 ( 该 过 程 由 org. apache. mahout. clustering. canopy. 
CanopyReducer 类 实现 ) 。 

第 三 步 , 使 用 Reducer 计算 出 中 心 向 量 ,采用 最 近 距 离 原 则 对 原始 数据 进行 聚 类 (该 
过 程 由 org. apache. mahout. clustering. canopy. ClusterDriver 类 实现 ) 。 下 面 通过 具体 的 
实例 来 说 明 Mahout 中 Canopy 算法 如 何 应 用 。 

本 实例 的 数据 集 来 自 加 州 大 学 公开 的 数据 资源 集 , 这 里 下 载 了 用 于 聚 类 测试 的 数据 
集 reuters21578. tar. gz 文件 (http://kdd. ics. uci. edu/databases/reuters21578/ 
reuters21578. tar. gz) ,也 可 从 本 书 配 套 资料 中 的 Demo/Canopy 文件 夹 中 查看 。 该 数据 
集 包 含 路 透 社 共 21 578 篇 新 闻 报 告 ,通过 专业 人 员 手 工 标注 的 形式 化 语料库 在 。 首 先 要 
将 该 文件 进行 解压 缩 ,具体 的 操作 命令 如 下 。 


# 解 压缩 数据 
$ tar - zxvf reuters21578.tar.gz 


该 数据 文件 解压 后 会 出 现 * * . sgm” 格 式 的 文件 ,这 种 格式 的 文件 本 质 上 是 XML 格 
式 的 文件 ,需要 将 这 些 文件 转化 为 SequenceFile 格式 的 文件 ,可 使 用 Mahout 自 带 的 工具 
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类 实现 文本 抽取 (org. apache. lucene. benchmark. utils. ExtractReuters 类 ) ,会 对 文本 内 
容 进 行 提取 (抽取 标题 二 TITLE 记 和 正文 二 BODY 二 中 的 文本 ), 提 取 后 的 文本 保存 在 
reuters-out 目录 下 。 然 后 将 reuters-sgm 和 reuters-out 上 传 到 HDFS, 具 体 的 操作 命令 
如 下 。 


下 一 步 需要 将 数据 集 进行 转换 ,因为 Mahout 聚 类 算法 的 输入 为 List Vector . Bl 
需要 将 每 个 待 聚 类 的 文档 表示 为 向 量 形式 ,转换 后 输出 的 文件 格式 为 二 Text,Text>, 具 
体 的 操作 命令 如 下 。 


使 用 Mahout 的 seqdirectory 命令 将 原始 语 料 转换 成 SequenceFile 文件 格式 ,charset 
为 UTF-8;chunkSize 为 64MB; xm 选择 执行 的 方法 为 sequential( 表 示 在 本 地 顺序 执行 ， 
也 可 以 使 用 MapReduce) 。 使 用 seq2sparse 将 SequenceFile 文件 转化 为 向 量 表示 ,-i 和 -o 
表示 输入 和 输出 ;-ow (-overwrite) 表 示 即 使 输出 目录 存在 ,也 进行 覆盖 操作 ;一 weight 
(wt) 表 示 权 重 公 式 ; 一 maxDFPercent 85 表示 过 滤 高 频 词 , 当 DF 大 于 85% 时 ,将 不 再 作 
为 词 特征 输出 到 向 量 中 ;--namedVector 表示 向 量 会 输出 附加 信息 。 最 后 ,使 用 Mahout 
的 Canopy 算法 对 测试 数据 进行 聚 类 ,具体 的 操作 命令 如 下 。 
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#Cancpy 聚 类 
$ mahout cancpy \ 
-i $ {WORK DIR)/tfidf- vectors V 
—o $ (W-FK DIR)/reuters- canopy- centroids V 
— dm org.apache .mahout camen. di stance. CosineDi stanoeMeasure V 
-t1150 \ 
-t280 \ 
- \ 


-- clustering 


其 中 ,输入 文件 使 用 的 是 转换 后 的 序列 文件 ;距离 计算 方式 使 用 的 是 欧式 距离 ;Ti 和 
T, 分 别 设置 为 150 和 805—clustering 选项 表示 最 后 对 原始 数据 进行 分 类 。 本 实例 的 运 
行 结果 可 在 reuters-canopy-centroids 目录 中 查看 ,请 读者 自己 动手 实践 加 以 理解 。 
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K-means 聚 类 是 数据 挖掘 最 为 经 典 的 基于 划分 的 聚 类 算法 ,该 算法 的 基本 思想 是 以 
空间 中 K 个 点 为 中 心 进行 聚 类 ,把 所 剩 下 的 其 他 点 与 这 K 个 点 进行 相似 度 (距离 ) 计 算 ， 
分 别 将 它们 分 配给 与 其 最 相似 的 聚 类 ,然后 再 计算 每 个 所 获取 新 聚 类 的 聚 类 中 心 ,不 断 重 
复 该 过 程 直到 标准 测度 函数 (一 般 使 用 误差 平方 和 准则 函数 ) 开 始 收敛 为 止 。 

在 Mahout 中 的 K-means 算法 其 实 就 是 将 K-means 的 算法 通过 MapReduce 并 行 
化 ,其 中 Map 用 来 读 取 分 配 到 该 点 的 每 条 数据 ,与 中 心 做 对 比 , 求 出 该 点 对 应 的 中 心 , 然 
后 以 中 心 ID 为 Key, 该 点 为 Value 将 数据 输出 ;Reduce 是 将 相同 的 Key 归并 到 一 起 , 集 
中 与 该 Key 对 应 的 点 ,再 求 出 这 些 点 的 平均 值 , 输 出 新 的 聚 类 中 心 。Mahout 中 K-means 
聚 类 过 程 与 其 他 上 聚 类 过 程 相同 ,也 要 经 过 数据 集 转化 为 SequenceFile 一 seq2sparse 一 执行 
算法 一 查看 结果 的 过 程 ,这 里 就 不 再 闭 述 。 有 关 K-means 的 聚 类 实例 ,可 查看 Mahout 
安装 目录 的 {home})/examples/bin/cluster-reuters. sh 文件 ,该 文件 是 关于 各 种 K-means 
聚 类 的 具体 实例 ,如 K-means, fuzzykmeans, LDA (Latent Dirichlet Allocation) , 
streamingkmeans。 该 文件 cluster-reuters. sh 的 执行 具体 流程 请 查看 源码 ,这 里 使 用 文 
本 编辑 器 打开 cluster-reuters. sh 文件 ,并 给 出 部 分 重要 源码 及 注释 ,方便 读者 理解 。 


# 自 动 下 载 路 透 社 新 闻 语 料 并 进行 解压 

echo "Downloading Reuters- 21578" 

curl http://kdd.ics.uci .edu/databases/reuters?1578/reuters21578.tar.gz 
— o $ (WCFK DIR)/reuters215/8.tar.gz 


# 调 用 Mahout 自 带 的 ExtractorReuters 进 行内 容 抽取 
$ MAHOUT org.apache. lucene.benchmark.utils.ExtractReuters $ {WORK_DIR}/reuters— sgm $ (WORK DIR)/ 
reuters- out 


e 32,9 gun 


# 调 用 seqdirectory, 将 其 转换 成 Seguenoerile 3c fF 
S MAHOUT segdirectory -i $ (WORK DIR)/reuters- out -o $ (WORK DIR)/reuters- out- segdir — c UIF- 8 — 
chunk 64 - xm sequential 


# 调 用 seqpsparse, 将 SequenceFile 文 件 转换 为 向 量 文件 

$ MAHOUT secpsparse V 

—i $ {WK DIR)/reuters- out- seqdir/ N 

— o $ (WCFK DIR)/reuters- out- secdir- sparse- kmeans — —maxDFFeroent. 85 
-- namedvector V 


# 调 用 K- means SETA. 
$ MAHOUT kreans N 
-i $ (WCFK DIR]/reuters- out- segir- sparse- kmeans/tfidf- vectors/ N 
-c $ {WK DIR]/reuters- kmeans- clusters N 
— o $ (WXFK DIR]/reuters- kmeans V 
— dm org.apache.mahout .camon.di stance .EuclideanDi stanoeVeasure N 
-x 10 -k 20 -w - - clustering V 
$ MAHOUT clusterdump V HAH clusterdump 分 析 聚 类 结果 
-i '$IES -1s -d $ WK DIR)/reuters- kreens/Clusters- * - firal | ak '(print $8)'' N 
— o $ {WOK DIR)/reuters- kmeans/clusterdump V 
-d $ (WoFK DIR] /reuters- out- seir- sparse- kmeans/dicticnary.file- 0 N 
-dt seguencefile - b 100 - n 20 - - evaluate - dm org. apache. mahout. common. distance. 
EuclideanDistanceMeasure - sp 0 V 
- -pointsDir $ (WOFK DIR]/reuters- kmeans/clusteredFoints V 


# 调 用 fuzzykmeans 聚 类 算法 

$ MAHOUT fkmeans V 
-i $ {WOK DIR)/reuters- out- selir- sparse- fkmeans/tfidf- vectors/ N 
— c $ {WOK DIR)/reuters- fkmeans- clusters N 
— o $ (WCFK DIR]/reuters- fkmeans V 
— dm org.apache .mahout .oamon.di stance .Eucl ideanDi stanoeMeasure V 
—-x10-k20-ow-m1.1N 

$ MAHOUT clusterdmp V HAH clusterdmp 分 析 聚 类 结果 
-i $ {WFK _DIR}/reuters- fmeans/clusters- * - final V 
— o $ (WCFK DIR]/reuters- fkmeans/clusterdump V 
-d $ {WOK DIR)/reuters- out- secdir- sparse- fkmeans/dicticnary.file- 0 V 
-dt seguencefile -b 100 -n 20 - sp 0 N 


# 调 用 IIR 聚 类 算法 
$ MAHOUT cub N 
-i $ {WOK DIR]/reuters- out- matrix/matrix V 
—o $ {WFK DIR)/reuters- lda - k 20 - ow -x 20 N 
-dict $ (WOFK DIR]/reuters- out- sedir- sparse- lda/dictionary.file- * V 
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-dt $ (WCRK DIR]/reuters- lda- topics V 
-mt $ (WOFK DIR)/reuters- lda- mæl V 
$ MAHOUT vectordump V 
— 1 $ {WORK DIR]/reuters- lda- topics/part- m- 00000 V 
— o $ {WK DIR)/reuters- lda/vectordump N 
-vs 10 -p tnæ N 
-d $ (WCFK DIR)/reuters- out- sedir- sparse- lda/dictionary.file- * Ó 
-dt sequenoefile - sort $ (WORK DIR]/reuters- lda- topics/part-m- 00000 N 
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$ MAHOUT streamingkmeans V 
-i $ (WORK DIR)/reuters- out- segir- sparse- streamingkmeans/tfidf- vectors/ V 
--tempDir $ (WOFK DIR)/ump V 
— o $ (WFK DIR)/reuters- streamingkmeans V 
— sc org.apache .mahout math. neighborhood. FastProjectionSearch V 
— dm org.apache.mahout .camun.di stance. SquaredEuclideanDi stanoceMeasure V 
-k 10 -km 100 - ow V 
$ MAHOUT qualcluster V 
-i $ (WORK DIR]/reuters- out- seir- sparse- streamingkmeans/tfidf- vectors/part- r- 00000 V 
— c $ (WORK DIR)/reuters- streamingkmeans/part- r- 00000 \ 
— o $ (WK DIR]/reuters- cluster- distance.csv N 
&& N 


除了 上 面 介绍 的 几 种 常用 的 聚 类 算法 之 外 ,还 有 很 多 其 他 聚 类 算法 ,如 EM R 
(Expectation Maximization ,期 望 最 大 化 聚 类 ) 均值 漂移 聚 类 (Mean Shift Clustering) , 
层次 聚 类 (Hierarchical Clustering) 、 狄 里 克 雷 过 程 聚 类 (Dirichlet Process Clustering) 、. 谱 
RŽ (Spectral Clustering) 等 。 有 关 Mahout 中 更 多 聚 类 算法 ,可 以 认真 查看 org. apache. 
mahout. clustering 包 中 的 相应 类 。 


9.6 模式 挖掘 算法 


模式 挖掘 算法 是 一 种 常 被 用 来 进行 关联 分 析 和 挖掘 频繁 项 的 算法 。 该 算法 使 用 了 一 
种 称 为 频繁 模式 树 (Frequent Pattern Tree) 的 数据 结构 ,其 数据 结构 为 二 频繁 项 头 , 项 前 
组 树 之 。 前 组 树 是 一 种 存储 候选 项 集 的 数据 结构 , 树 的 分 支 用 项 名 标识 , 树 的 节点 存储 后 
组 项 ,项 集 由 路 径 组 成 。 该 算法 需要 扫描 两 次 数据 库 ,第 一 次 扫描 数据 库 计 算 所 有 项 目的 
频数 并 进行 降序 排列 生成 一 个 F-List, 第 二 次 扫描 将 数据 压缩 成 一 个 频繁 模式 树 FP- 
Tree, 接 着 通过 FP-Growth 来 递归 挖掘 该 FP-Tree, 从 而 寻找 出 频繁 项 目 集 。 

在 Mahout 中 的 模式 挖掘 算法 (Parallel FP Growth Algorithm) 是 一 种 并 行 化 处 理 的 
模式 挖掘 算法 ,解决 了 单一 节点 的 FP-Growth 算法 在 时 间 和 空间 上 的 双重 瓶颈 。 在 
Mahout 0. 8 之 后 的 版 本 已 经 将 该 算法 移 除 , 如 需要 更 多 地 了 解 该 算法 请 查看 Mahout 
0.8 以 下 版 本 中 ñj  FPGrowthDriver, PFPGrowth、 ParallelCountingMapper、 
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TransactionTree, ParallelCountingReducer, ParallelFPGrowthMapper, ParallelFPGrow- 
thReducer 等 类 , 并 结合 Haoyuan Li fj i X Parallel FP-Growth for Query 
Recommendation 来 理解 如 何 使 用 MapReduce 并 行 化 FP-Growth 算法 。 有 关 模 式 挖 
掘 算法 的 实例 数据 集 , 可 从 本 书 配套 资料 中 的 Demo/Parallel FP-Growth 文件 夹 中 查看 
(retail. dat 为 测试 数据 集 , retail results. with min. sup. 100. dat 为 结果 集 )。 首 先 在 
HDFS 中 新 建 input 目录 ,然后 将 retail. dat 数据 集 上 传 到 input 目录 中 ,再 使 用 Mahout 
的 模式 挖掘 算法 对 测试 数据 进行 模式 挖掘 ,具体 的 操作 命令 如 下 。 
Smahout fpg - i irput/retail.dat V 

-0 output. V 

—method mapreduce V 

-regx '[N ]' -s2 


其 中 ,-i 表 示 输 入 路 径 ;-o 表示 输出 路 径 ;-method 表示 计算 方法 , 即 单机 模式 还 是 分 
布 式 ;-regex 表示 正则 表达 式 ;-minSupport 表示 最 小 支持 度 阔 值 , 默 认 值 为 3。 执行 完 上 
述 命令 后 ,会 在 output 目录 下 生成 4 个 文件 夹 fList. frequentpatterns, fpGrowth， 
parallelcounting ,查看 执行 结果 的 具体 操作 命令 如 下 。 


$ hadog fs - 1s - R output TUB output 目录 下 生成 的 文件 夹 
$ mhart segiumper - i output/freguentpattems/part- r- 00000 
# 查 看 执行 结果 


Mahout 中 的 并 行 化 FP-Growth 算法 解决 了 面 对 大 量 数据 时 传统 FP-Growth 的 时 
间 和 空间 的 性 能 瓶颈 ,有 兴趣 的 读者 可 以 考虑 在 并 行 化 FP-Growth 算法 的 基础 上 ,如 何 
更 好 地 考虑 负载 均衡 以 及 优化 频繁 模式 的 表示 等 问题 。 


9.7 协同 过 滤 算 法 


协同 过 滤 算 法 (Collaborative Filtering) 也 称 为 推荐 算法 ,是 根据 目标 用 户 的 行为 特 
征 ,为 其 发 现 一 个 兴趣 相投 、 属 性 相似 的 群体 ,然后 根据 群体 的 喜好 来 为 目标 用 户 过 滤 可 
能 感 兴趣 的 内 容 。Mahout 完整 地 封装 了 并 行 化 的 协同 过 滤 算 法 ,并 提供 了 API, 供 开发 
人 员 根 据 自 己 的 业务 场景 进行 算法 配置 和 调 优 。 要 基于 Mahout 实现 协同 过 滤 ,就 需要 
经 过 收集 用 户 偏好 一 计算 用 户 /物品 相似 度 一 计算 推荐 物品 等 过 程 。 下 面 将 对 每 个 过 程 
进行 简单 介绍 。 
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要 从 用 户 的 行为 和 偏好 中 发 现 规律 ,并 基于 此 给 予 推荐 ,首先 就 需要 收集 用 户 的 偏好 
信息 并 进行 有 效 的 存储 和 表达 ,该 过 程 是 协同 过 滤 算 法 推荐 效果 最 基础 的 决定 因素 。 用 
户 可 以 有 很 多 方式 来 提供 自己 的 偏好 信息 ,而 且 不 同 的 应 用 也 可 能 大 不 相同 。 表 9. 3 给 
出 了 一 种 用 户 行为 和 用 户 偏 好 的 表达 方式 。 
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表 9.3 用 户 行为 和 偏好 
用 户 行为 | 类 型 * € 作 用 
评分 “| ms vivi aS 通过 用 户 对 物品 的 评分 ,可 以 精确 地 得 到 用 户 的 偏好 
布尔 量化 的 偏好 , 取 值 是 | 通过 用 户 对 物品 的 投票 ,可 以 较 精 确 地 得 到 用 户 的 
投票 x 
0 或 1 偏好 
布尔 量化 的 偏好 ,取信 息 | 通过 用 户 对 物品 的 转发 , 可 以 较 精 确 地 得 到 用 户 的 
转发 “| 显 式 
0 或 1 偏好 
收藏 ux | PERIUSRI EIS | 通过 用 户 对 物品 的 收藏 ,可 以 精确 地 得 到 用 户 的 仿 好 
wi an 一 县 文 字 , 需 要 进行 文本 | 通过 分 析 用 户 的 评论 ,可 以 得 到 用 户 的 情感， GE 
分 析 得 到 偏好 是 讨厌 


表 9. 3 的 实例 是 较为 通用 的 一 种 表达 方式 ,具体 的 设计 可 以 根据 应 用 场景 的 特点 添 
加 特殊 的 用 户 行为 ,并 表示 用 户 对 物品 的 偏好 程度 。 当 收集 到 用 户 行为 数据 之 后 ,还 要 对 
这 些 数 据 进 行 预 处 理 ,如 减 噪 和 归 一 化 处 理 , 再 根据 不 同 应 用 的 行为 分 析 进 行 选择 分 组 或 
者 加 权 处 理 , 得 到 一 个 用 户 偏好 的 二 维 矩 阵 志 用户 列表 ,物品 列表 二 ,其 值 是 用 户 对 物品 
的 偏好 。 在 Mahout 中 是 通过 偏好 (Perference) 和 数据 模型 (Data Model) 这 两 种 数据 表 
示 形 式 实现 上 述 过 程 的 。 


1. 偏好 


在 Mahout 中 用 户 的 偏好 被 抽象 为 一 个 Perference 接口 ,该 接口 包含 userID, itemId 
和 偏好 值 ,Perference 接口 的 通用 实现 为 GenericPreference 类 。Mahout 还 分 装 了 一 个 
PerferenceArray 接口 ,用 于 保存 一 组 用 户 偏 好 数据 ,其 实现 类 为 GenericUser- 
PreferenceArray 类 和 GenericItemPreferenceArray 类 。 有 兴趣 的 读者 可 以 查看 org. 
apache. mahout. cf. taste. impl. model 包 中 的 相应 类 。 


2. 数据 模型 


Mahout 协同 过 滤 接 受 的 数据 输入 类 型 为 DataModel, 实 现 从 任意 类 型 的 数据 源 抽取 
用 户 偏好 信息 ,并 返回 从 输入 的 偏好 数据 中 关联 到 一 个 物品 用 户 ID 列表 和 count 计数 ， 
以 及 输入 数据 中 所 有 用 户 和 物品 的 数量 。DataModel 的 实体 实现 类 包括 支持 文件 读 取 的 
FileDataModel 类 、 内 存 版 的 GenericDataModel 类 和 支持 数据 库 读 取 的 JDBCDataModel 
类 。 有 兴趣 的 读者 可 以 查看 org. apache. mahout. cf. taste. impl. model 包 中 的 相应 类 。 
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不 管 是 基于 用 户 的 协同 过 滤 算 法 UserCF ,还 是 基于 物品 的 协同 过 滤 算 法 ItemCF , 首 
先 都 要 对 用 户 或 物品 进行 相似 度 计算 ,从 而 发 现 兴 趣 相似 的 用 户 或 物品 。 在 Mahout 中 ， 
通常 用 Jaccard 系数 (也 可 称 为 Tanimoto 系数 , Tanimoto Coefficient) 或 余弦 相似 度 
(Cosine Similarity ) 计算 来 解决 相似 度 问 题 ,也 可 用 如 欧 几 里 得 距离 (Euclidean 
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Distance) ,皮尔 森 相关 系数 (Perarson Correlation Coefficient) 等 方法 解决 。 不 管用 哪 种 
方式 解决 ,本 质 上 还 是 通过 计算 两 个 向 量 之 间 的 距离 来 衡量 两 个 用 户 (UserCF) 或 物品 
(ItemCF) 之 间 的 相似 度 。 下 面 先 了 解 一 下 Mahout 中 几 种 常用 的 相似 度 计 算 方法 。 


1. 欧 几 里 得 距离 
欧 几 里 得 距离 最 初 用 于 计算 欧 几 里 得 空间 中 两 点 的 距离 ,假设 + 和 y 是 NN 维 空间 的 
两 个 点 ,它们 之 间 的 欧 几 里 得 距离 为 : 


dzy) = J(21Gi — y) 
MON —2 时 , 欧 几 里 得 距离 就 是 平面 上 两 点 之 间 的 欧式 距离 ,两 点 之 间 的 距离 越 小 ， 
其 相似 度 越 大 ,可 通过 如 下 公式 表示 其 相似 度 大 小 。 


simCr P 
>”  l1+dG@%,y) 


2. 皮尔 森 相 关系 数 
皮尔 森 相 关系 数 也 称 为 皮尔 森 积 矩 相关 系数 ,是 用 来 反映 两 个 变量 线性 相关 程度 的 
统计 量 , 它 的 取 值 在 [一 1, 十 1] 之 间 , 其 计算 公式 如 下 。 
Muy —nzy nD ziyi = Muy 
Gr — Ds,s, Jh 3t - (3n x Jn93st - (Six 
其 中 ,s, Asy 是 x 和 y 的 样品 标准 偏差 。 
3. 余弦 相似 度 


余弦 相似 度 是 利用 向 量 空间 中 两 个 向 量 夹 角 的 余弦 值 作为 衡量 两 个 个 体 间 差 异 的 大 
小 。 余 弦 相 似 度 更 加 注重 两 个 向 量 在 方向 上 的 差异 ,而 非 距离 上 或 长 度 上 的 差异 。 余 弦 
相似 度 的 计算 公式 如 下 。 


pl(r,y) 


simCr.y) = cos0 = TH 
如 果 对 两 个 项 的 属性 进行 数据 中 心 化 , 则 余弦 相似 度 和 皮尔 森 相似 度 是 一 样 的 。 
Mahout 实现 了 数据 中 心 化 过 程 , 因 此 皮尔 森 相 关系 数 也 是 数据 中 心 化 后 的 余弦 相似 度 。 
在 新 版 本 的 Mahout 中 ,也 提供 了 计算 非 中 心 化 的 余弦 相似 度 类 CUncentered- 
CosineSimilarity 类 ) 。 


4. Jaccard 系数 


Jaccard 系数 也 可 称 为 Tanimoto 系数 ,主要 用 于 计算 符号 度量 或 布尔 度量 的 个 体 间 
的 相似 度 , 因 此 该 度量 只 关心 个 体 间 共同 具有 的 特征 是 否 一 致 ,而 无 法 衡量 差异 具体 值 的 
大 小 。Jaccard 系数 的 计算 公式 如 下 。 


JaccardCr.y) 一 zy 


rUy 
Mahout 主要 提供 了 针对 用 户 相似 度 和 物品 相似 度 的 计算 ,如 用 于 计算 欧 几 里 得 距 
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离 的 类 EuclideanDistanceSimilarity. 用 于 计算 皮尔 森 相 关系 数 的 类 PearsonCorr- 
elationSimilarity, 用 于 计算 余弦 相似 度 类 的 类 UncenteredCosineSimilarity 类 ,用 于 计算 
Jaccard 系数 (Tanimoto 系数 ) 的 类 TanimotoCoefficientSimilarity。 这 些 类 都 继承 自 
AbstractSimilarity 类 。 该 类 中 有 三 个 重要 方法 : userSimilarity ( ) , itemSimilarity ( )、 
computeResult()。 其 中 ,userSimilarity() 和 itemSimilarity() 方 法 会 在 计算 好 相应 变量 
之 后 调用 子 类 实现 computeResult() 方 法 。 如 果 读 者 想 更 深入 地 了 解 相似 度 的 计算 ,请 
结合 上 述 理论 并 结合 相关 代码 理解 。 
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经 过 前 面 的 相似 度 计算 已 经 可 以 得 到 相 邻 用 户 和 相 邻 物品 ,下 面 就 要 基于 这 些 信息 
为 目标 用 户 进 行 推荐 。Mahout 提供 了 多 种 类 型 的 计算 推荐 ,如 基于 用 户 的 推荐 
(GenericUserBasedRecommender) 、 基 于 物品 的 推荐 (GenericltemBasedRecommender)、 
基于 Slope-one 算法 的 推荐 (SlopeOneRecommender)、 基 于 SVD 算法 的 推荐 
(SVDRecommender) , AE F fii yr 4p FE 1 hY fE 1$ ( KnnItemBasedRecommender) , J& F 3 38 
的 推荐 (TreeClusteringRecommender) 。 这 几 种 计算 推荐 各 有 优 缺 点 ,实际 项 目 中 需要 根 
据 不 同 的 应 用 场景 来 选择 适合 的 计算 推荐 引擎 。 下 面 介绍 Mahout 中 常用 的 基于 用 户 的 
推荐 UserCF 和 基于 物品 的 推荐 ItemCF 。 


1. 基于 用 户 的 推荐 UserCF 


基于 用 户 的 协同 过 滤 是 找到 与 目标 用 户 对 物品 偏好 相似 的 相 邻 用 户 集合 ,然后 将 用 
户 集合 中 相 邻 用 户 所 喜欢 的 物品 且 目 标 用 户 没 有 关注 的 物品 推荐 给 目标 用 户 , 其 基本 思 
想 是 将 目标 用 户 对 所 有 物品 的 偏好 作为 一 个 向 量 来 计算 用 户 之 间 的 相似 度 ,找到 K 个 邻 
Ja FP Jes ,根据 邻居 用 户 的 相似 度 权重 及 他 们 对 物品 的 偏好 ,预测 目标 用 户 没 有 偏好 的 未 
涉及 物品 ,从 而 计算 得 到 一 个 排序 的 物品 列表 作为 推荐 。Mahout 中 基于 用 户 的 推荐 
UserCF 的 实现 类 为 GenericUserBasedRecommender 类 ,该 类 的 输入 参数 为 DataModel、 
UserNeighborhood、UserSimilarity。 其 中 ,DataModel 是 用 户 偏好 信息 的 抽象 接口 ,支持 
从 任意 类 型 的 数据 源 抽取 用 户 偏好 信息 ;UserSimilarity 用 于 定义 两 个 用 户 间 的 相似 度 ， 
可 用 来 计算 用 户 的 相似 邻居 ;UserNeighborhood 用 于 基于 用 户 相 似 度 的 推荐 方法 中 , 推 
荐 的 内 容 是 基于 找到 与 当前 用 户 偏 好 相似 的 邻居 用 户 的 偏好 物品 。 基 于 用 户 的 推荐 
UserCF 的 具体 过 程 如 下 。 

CD 查询 与 该 用 户 相似 的 用 户 , 以 及 相似 用 户 与 该 用 户 的 相似 度 。 其 中 ,相似 用 户 和 
相似 度 是 进行 推荐 计算 的 根据 。 

(2) 应 用 UserNeighborhood 获取 指定 用 户 User, 最 相似 的 KK 个 邻居 用 户 的 集合 
{User , Userz ,*… ,User:}。 

(3) 根据 K 个 邻居 用 户 的 偏好 物品 集合 {Itemo Item ,… Item, } 计 算 用 户 User; 对 
每 个 Item; 的 偏好 程度 perf User; ,Item;j ) ,其 偏好 程度 的 计算 公式 如 下 。 
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k 
b» sim(User, . User;) X p (User, .Item;) 


perfC User; .Item;) zl + 


bP sim( User, , User; ) 


1 一 1 
其 中 ,p(User,,Item) 是 User, 对 Item; 的 偏好 值 。 

(4) 根据 User; 对 每 个 Item; 的 偏好 程度 Perf User, , Item; ) 的 数值 从 高 到 低 排序 ,把 
前 N 个 Item 推荐 给 User;。 

下 面 通过 具体 的 实例 来 说 明 如 何 实 现 基于 用 户 的 推荐 。 本 实例 的 数据 来 源 于 网 站 
http://www. grouplens. org/ 中 的 MovieLens 压缩 文件 ,该 文件 夹 下 有 三 个 文件 : 
movies. dat, ratings. dat 和 users. dat。 其 中 ,movies. dat 的 文件 描述 是 : 电影 编号 : :电影 
名 : :电影 类 别 ;ratings. dat 的 文件 描述 是 : 用 户 编号 : :电影 编号 ; :电影 评分 :: 时 间 戳 ; 
users, dat 的 文件 描述 是 : 用 户 编号 : :性 别 : :年 龄 : :职业 : :Zip-code。 这 些 文件 包含 来 自 
6040 个 MovieLens 用 户 在 2000 年 对 约 3900 部 电影 的 1 000 209 个 匿名 评分 信息 。 本 实 
例 直 接 使 用 ratings. dat 文件 作为 数据 源 ,基于 用 户 的 推荐 引擎 实现 代码 如 下 。 


public class UserCFRecammender { 
//step:1. 构 建 数据 模型 2. 计 算 相 似 度 3. 查 找 大 紧邻 4. 构 造 推荐 引擎 
/构造 数据 模型 
DataModel model- new FileDataModel (new File ("ratings.dat")) ; 


// 用 Fearsoncorrelation 算 法 计算 用 户 相似 度 
ER E EEENES El); 


/* 计算 用 户 的 "分 居 ", 这 里 将 与 该 用 户 最 近 距 离 为 3 的 用 户 设置 为 该 用 户 的 "分 居 "* / 
UserNeighborhood neighborhood new NearestNUserNeighborhood(3，similarity, model); 


/* 构建 一 个 GenericUserpasedReocmender 推荐 器 需要 数据 源 (DataMpdel)、 用 户 相似 性 
(Usersimilarity) 和 相 邻 用 户 相 似 度 (UserNeighborhood) * / 
Recommender reommender= new GenericUserBasedRecommender (model, neighborhood, similarity); 


// 得 到 推荐 的 结果 ,size 是 推荐 过 的 数目 
reoammendations- reommender. reommend (userID, size); 
} 


基于 用 户 的 推荐 的 实现 是 通过 DataModel、UserNeighborhood 和 UserSimilarity 构 
建 推 荐 器 GenericUserBasedRecommender, 从 而 实现 基于 用 户 的 推荐 策略 。 


2. 基于 物品 的 推荐 ItemCF 


基于 物品 的 协同 过 滤 首 先 需要 计算 物品 之 间 的 相似 度 , 然 后 根据 物品 的 相似 度 和 用 
户 的 历史 行为 给 目标 用 户 生 成 推荐 列表 ,其 基本 思想 是 将 所 有 用 户 对 某 个 物品 的 偏好 作 
为 一 个 向 量 来 计算 物品 之 间 的 相似 度 ,得 到 物品 的 相似 物品 之 后 ,根据 用 户 历史 的 偏好 预 
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测 当前 用 户 还 没有 表示 偏好 的 物品 ,计算 得 到 一 个 排序 的 物品 列表 作为 推荐 。Mahout 
中 基于 物品 的 推荐 ItemCF 的 实现 类 为 GenericItemBasedRecommender 类 ,该 类 的 输入 
参 数 为 DataModel、ItemSimilarity、CandidateltemsStrategy (可 选 参 数 ) 和 
MostSimilarltemsCandidateltemsStrategy( 可 选 参 数 )。 其 中 ，UserSimilarity 用 于 定义 
两 个 物品 之 间 的 相似 度 ; CandidateItemsStrategy 用 于 检索 可 能 向 用 户 推荐 的 所 有 物品 ; 
MostSimilarItemsCandidateItemsStrategy 用 于 检索 所 有 相似 的 物品 。 基 于 物品 的 推荐 
ItemCF 的 具体 过 程 如 下 。 

CD 查询 该 用 户 的 偏好 物品 集合 {It ,Tt stt Itn) s 

(2) 使 用 MostSimilarItemsCandidateltemsStrategy (有 多 种 策略 ,类 似 于 
UserNeighborhood) 获 得 用 户 偏好 集合 里 每 个 Item 最 相似 的 其 他 Item. 构成 的 集合 
(Item, . Item; Item, }; 

(3) Xf (Item, Item; ,… ,Itemx) 里 的 每 个 Item; 计算 用 户 User; 对 该 物品 的 偏好 程度 
Perf(User ,Item; ) ,其 偏好 程度 的 计算 公式 如 下 。 


k 
2 sim(It, .Item;) X pl(User;,1t,) 


1-1 


perf( User; , Item; ) 
2j sim(It, .Item; ) 


其 中 ,p(User;,It,) 是 User; 对 It, 的 偏好 值 。 

(4) 根据 User; 对 每 个 Item; 的 偏好 程度 perf(User Item; ) 的 数值 从 高 到 低 排 序 ,把 
前 N 个 Item 推荐 给 User; 。 

下 面 通过 具体 的 实例 来 说 明 如 何 实 现 基于 物品 的 推荐 。 基 于 物品 的 推荐 的 实现 和 基 
于 用 户 的 推荐 实现 非常 类 似 , 只 是 所 使 用 的 推荐 器 不 同 而 已 。 前 面 介绍 了 基于 用 户 的 推 
荐 UserCF 使 用 的 推荐 器 为 GenericUserBasedRecommender, 而 基于 物品 的 推荐 ItemCF 
所 使 用 的 推荐 器 为 GenericItemBasedRecommender。 本 实例 只 需要 在 基于 用 户 的 推荐 引 
擎 基础 上 修改 推荐 器 即 可 ,具体 的 实现 代码 如 下 。 


k 


public class ItenCFReommender ( 
// 构 造 数据 模型 
DataModel model- new Fi leDataModel (new File ("ratings.dat")) ; 


// 计 算 物品 相似 性 
TtenGinilarity itemsinflarity-rew B dationsimilarity (mde); 


// 构 建 基 于 物品 的 推荐 引擎 
Reccmmender reoamender- new GenericIterBasedReommender (model, itemsimilarity); 


C) RER 


基于 物品 的 推荐 与 基于 用 户 的 推荐 区 分 其 实 很 简单 ,区 别 在 于 挖掘 的 关系 是 物品 与 
物品 之 间 (ItemCF) 还 是 用 户 与 用 户 之 间 的 (UserCF)。 
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当前 的 大 数据 应 用 已 十 分 广泛 ,其 中 以 互联 网 领域 为 主导 , 涵盖 医疗 交通、 金融 A 
育 、 零 售 等 各 行 各 业 。 本 章 将 介绍 大 数据 在 各 行 各 业 的 应 用 案例 ,来 说 明 大 数据 如 何 展开 
行业 应 用 以 及 大 数据 在 行业 应 用 中 的 价值 。 


10.1 大 数据 应 用 现状 及 发 展 趋势 


1011 产业 现状 


随 着 大 数据 逐渐 为 越 来 越 多 的 人 所 认 知 ,各 行 各 业 对 数据 分 析 的 广度 和 速度 都 有 更 
高 的 要 求 ,促使 大 数据 厂商 加 快 了 对 数据 分 析 技 术 的 研发 创新 。 大 数据 分 析 也 逐渐 从 结 
构 化 的 历史 数据 分 析 到 如 社交 网 络 .传感器 数据 等 非 结 构 化 数据 分 析 的 技术 创新 。 众 多 
厂商 也 推出 了 针对 大 数据 的 解决 方案 ,如 IBM、EMC Oracle, SAP 等 顶级 厂商 。 然 而 , 目 
前 大 数据 的 多 数 解决 方案 仍 只 是 为 大 数据 应 用 提供 存储 、 处 理 、 挖 掘 的 平台 技术 ,针对 不 
同行 业 、 不 同 场景 的 应 用 开发 , 仍 处 在 极为 初级 的 阶段 。 表 10. 1 列 出 了 一 些 重点 大 数据 
厂商 大 数据 解决 方案 。 


表 10.1 大 数据 厂商 解决 方案 
解决 方案 ”| 提供 大 数据 技术 工具、 一 整套 软件 .系统 和 业务 战略 组 成 的 完整 解决 方案 


(1) InfoSphere BigInsights, InfoSphere Streams 和 InfoSphere Warehouse; 可 
用 于 处 理 静 态 数据 和 流动 数据 ,用 于 快速 分 析 非 结构 化 或 半 结 构 化 的 海 

IBM | 大 数据 产品 | 。 量 数据 ; 

(2) 业务 分 析 产 品 (Cognos,SPSS,ClarltySystem 4$) ; 

(3) 商业 分 析 、 优 化 顾问 及 研发 专家 提供 解决 方案 


在 云 计算 架构 上 整合 软 、 硬 件 技术 ,强大 全 面 的 信息 管理 .数据 分 析 软 件 ,专业 
的 咨询 服务 ,为 客户 提供 更 加 简易 、 及 时 的 数据 分 析 、 挖 掘 、 决 策 服务 


解决 方案 “| 为 用 户 提供 高 度 集成 、 端 到 端的 大 数据 解决 方案 


CD 大 数据 一 体 机 Oracle Exalogic 中 间 件 云 服 务 器 .Oracle Exadata 数据 库 云 
服务 器 、Oracle Exalytics 商务 智能 云 服务 器 等 构成 的 高 度 集成 化 产品 
组 合 ; 

(2) 为 以 上 大 数据 产品 提供 一 线 支持 服务 

应 用 价值 通过 软 硬 一 体 化 的 集成 产品 ,为 客户 提供 洞察 数据 及 挖掘 数据 的 商业 价值 


应 用 价值 


Oracle | 大 数据 产品 


(2242 mauka 


m 


解决 方案 “| 提供 云 计 算 开 放 式 、 分 布 式 和 集群 技术 处 理 的 大 数据 解决 方案 
统一 的 大 数据 分 析 平 台 UAP, A T EMC Greenplum 关系 数据 库 、EMC 


大 数据 产品 


EMC Greenplum HD Hadoop 发 行 版 和 EMC Greenplum Chorus 等 产品 
应 用 价值 充分 发 挥 存储 ,管理 和 安全 方面 的 优势 ,针对 大 数据 提供 分 析 工 具 、 服 务 , 具 有 
强大 的 扩展 性 和 开源 的 生态 系统 
解决 方案 | 提供 能 够 快速 高 效 地 处 理 海量 数据 的 HANA, 及 实时 大 数据 平台 的 解决 方案 
(1) 具有 内 存 计算 技术 的 HANA; 


SAP 大 数据 产品 | (2) SAP ERP、SAP Business One、SAP Suite on HANA 等 针对 行业 应 用 的 
产品 

帮助 用 户 以 便捷 的 方式 快速 获取 实时 信息 ,即时 获取 大 数据 洞察 ,并 提高 预测 

和 规划 能 力 


解决 方案 ”| 拥有 国内 最 具 商 业 价值 的 海量 数据 ,为 商家 提供 各 类 数据 服务 


(1) 数据 魔方 平台 : 首 个 基于 全 站 数据 的 数据 产品 ,是 淘宝 从 电子 商务 公司 向 
深度 数据 服务 公司 转型 的 里 程 碑 式 的 产品 ; 

(2) 量子 恒 道统 计 : 致力 于 为 各 个 电 商 ,淘宝 卖家 提供 精准 实时 的 数据 统计 、 

淘宝 “| 大 数据 产品 多 维 的 数据 分 析 、 权 威 的 数据 解决 方案 ; 

(3) 淘宝 指数 : 淘宝 官方 的 免费 的 数据 分 享 平台 ,用 户 可 以 窥探 淘宝 购物 数 
据 , 了 解 淘宝 购物 趋势 ; 

(4) 阿里 巴巴 金融 : 专注 于 小 微 企 业 的 融资 服务 提供 商 , 提 供 阿里 信用 贷款 


利用 海量 的 交易 数据 可 以 为 用 户 提供 数据 服务 ,帮助 用 户 了 解 市 场 、 顾 客 需 
求 ,从 而 改善 自己 的 产品 和 运营 策略 


应 用 价值 


应 用 价值 


随 着 激烈 的 市 场 竞争 ,各 企业 的 需求 也 促进 了 大 数据 解决 方案 产 商 对 大 数据 的 快速 、 
实时 处 理 分 析 技术 的 研发 投入 ,使 得 大 数据 的 应 用 方向 逐渐 明晰 ,成 为 企业 掘 金 的 新 
方向 。 


17012 应 用 现状 


大 数据 的 应 用 现状 是 互联 网 领先 ,其 他 领域 的 大 数据 应 用 还 在 探索 之 中 。 搜 索引 擎 
是 最 早 的 互联 网 大 数据 应 用 ,如 Google、 百 度 等 ;定向 广告 是 互联 网 大 数据 应 用 最 主要 的 
商业 模式 ,如 亚马逊 .Facebook、 腾 讯 等 。 大 数据 在 互联 网 行业 应 用 的 基本 特点 如 下 。 

CD 主要 以 定向 广告 和 个 性 化 推荐 为 主 ; 

(2) 简单 的 大 数据 应 用 已 在 互联 网 领域 广泛 开展 , 且 大 部 分 企业 具备 了 自行 实施 应 
用 的 技术 能 力 ; 

(3) 掌握 有 大 量 用 户 行为 数据 的 互联 网 巨头 可 以 较 好 地 提供 社会 化 服务 。 

大 数据 在 其 他 传统 行业 的 应 用 仍然 处 在 探索 阶段 ,如 在 医疗 行业 ,美国 DNAnexus 
为 医疗 机 构 和 用 户 提供 了 基因 数据 的 管理 .分析 和 可 视 化 能 力 ;在 能 源 行业 ,能 源 机 构 
Vestas 综合 考虑 温度 、 降 水 .风速 ,湿度 和 气压 等 因素 ,确定 涡轮 机 的 最 佳 安置 地 ;在 零售 
业 , 沃 尔 玛 零售 数据 商业 智能 分 析 系 统 , 可 以 了 解 到 全 球 四 千 多 家 门店 每 天 的 销售 情况 并 
辅助 制定 相应 的 销售 策略 ;在 制造 业 , 日 本 的 小 松 公司 根据 挖掘 机 工作 情况 进行 大 数据 分 
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析 , 从 而 判断 下 一 年 度 的 市 场 需求 ;在 电信 行业 ,西班牙 电信 基于 大 数据 的 “智慧 足迹 ” 产 
品 可 提供 基于 位 置 的 大 数据 分 析 ; 在 金融 行业 ,美国 证 信和 所 对 海量 信息 进行 交叉 分 析 , 推 
出 七 十 余 项 新 的 增值 服务 。 大 数据 的 行业 应 用 还 包括 农业 气象 等 领域 。 其 中 ,热点 应 用 
领域 有 : 社会 化 媒体 .电子 支付 内 容 提 供 、 视 频 点 播 .视频 监控 、 视 频 泻 染 ` 医 学 成 像 生 
命 科 学 .基因 测序 .移动 传感器 .智能 电网 、. 地 球 物理 勘探 .航空 航天 ,高 性 能 计算 等 。 大 数 
据 在 传统 行业 应 用 的 基本 特点 如 下 。 

CD 数据 源 主要 来 自 企业 内 部 、 类 型 较 少 、 实 时 要 求 较 低 ; 

(2) 企业 逐渐 重视 大 数据 ,但 当前 应 用 相对 简单 ,处 于 探索 阶段 ; 

(3) 掌握 大 数据 技术 的 企业 较 少 ,主要 由 ICT. 企业 提供 技术 支持 。 

目前 ,互联 网 与 传统 产业 不 断 整 合 ,将 催生 出 新 的 大 数据 创新 应 用 机 会 ,如 金融 与 互 
联网 整合 的 大 数据 应 用 : 阿里 小 贷 , 基 于 对 用 户 交易 行为 的 大 数据 分 析 , 为 阿里 面向 中 小 
企业 实施 信用 贷款 提供 支撑 ;如 交通 与 互联 网 的 融合 ,德国 电信 利用 大 数据 技术 实施 德国 
政府 的 无 拥堵 交通 研究 项 目 。 

然而 ,融合 创新 的 大 数据 应 用 案例 目前 比较 少 ,应 用 处 于 起 步 阶 段 。 不 过 ,融合 发 展 
能 够 将 互联 网 的 在 线 .数据 快速 积累 和 获取 等 优势 带 至 传统 行业 ,为 实体 经 济 发 展 带 来 新 
的 突破 ,将 是 未 来 大 数据 发 展 的 重要 方向 。 


1013 发 展 趋势 


大 数据 在 越 来 越 多 的 领域 当中 逐渐 得 到 广泛 的 应 用 。 据 2013 年 的 一 项 调查 曾 指出 ， 
28% 的 全 球 企业 和 25% 的 中 国企 业已 经 开始 进行 大 数据 实践 。 由 于 各 个 行业 都 存在 大 
数据 应 用 需求 ,潜在 市 场 空间 非常 可 观 。 大 数据 在 这 些 领 域 的 主要 应 用 如 表 10. 2 所 示 。 

表 10.2 大 数据 在 行业 应 用 案例 
f w R A 商业 价值 


改善 社交 网 络 体验 、 提 升 网 络 用 户 忠 诚 
度 、 向 目标 用 户 提供 有 针对 性 的 商品 与 
服务 等 


互联 网 广告 、 用 户 行为 分 析 、 内 容 推荐 个 性 
化 营销 、 搜 索引 擎 优化 等 


反 洗 钱 、 反 欺诈 、 客 户 价值 分 析 、 目 标 市 场 客 
金融 /银行 | 户 聚 类 、 贷 款 偿还 能 力 预测 、 股 票 等 投资 组 合 
趋势 分 析 等 


业务 设计 优化 ,用 户 行为 分 析 \ 不 性 化 推荐 .| 提高 业务 效率 \ 不 性 化 服务 \ 优 化 产品 套 
用 户 流失 预测 、 网 络 质量 优化 竺 m: 

Ws masus [o i 

延 、 就 诊 行为 分 析 \ 疾 病 模式 分 析 等 友善 诊疗 质量 \ 加 人 快 诊疗 速度 竺 
MERE ECL BUM AH GEHE EEG ER PE | 更 好 地 对 外 提供 公共 服务 UR DHT E 
分 析 、 信 息 比 对 碰撞 关系 人 分 析 竺 确 预 判 安全 威胁 等 


面向 公众 的 实时 智能 导航 、 实 时 套 牌 检测 比 
对 、 交 通 违法 智能 挖掘 与 取证 ,机 动车 牌号 精 | 降低 人 力 成 本 ,减轻 交 巡 警 的 执勤 压力 、 
准 查询 和 轨迹 跟踪 、 基 于 全 局 的 智能 调度 与 | 轻松 完成 复杂 的 交通 预 判 和 朴 导 等 

诱导 等 


降低 金融 风险 ,提高 整体 收入 、 增 加 市 场 
份额 等 


智慧 交通 


(9) sxxuxum 


续 表 
fr xv 案 A 商业 价值 
电力 行业 电网 负荷 实时 监控 和 智能 调度 .电力 生产 .用 | 海量 历史 /实时 数据 管理 能 力 、 配 电 / 输 
户 用 电 状 态 实时 监控 和 分 析 、 智 能 电网 等 电 / 变 电 / 用 电 环 节 综合 监控 能 力 等 
烟草 行业 自 适应 的 卷 包 排 产 实时 的 工艺 参数 最 优化 、| 优化 工艺 参数 和 生产 调度 、 在 线 的 实时 
自 推理 的 异常 检测 与 故障 诊断 等 检测 ,设备 故障 预警 等 
" P 优化 产品 设计 、 降 低 保修 成 本 、 降 低 工程 
制造 行业 | 产品 故障 及 失效 综合 分 析 等 事故 风险 等 
能 源 行业 | 勘探 ,钻井 等 传感器 阵列 数据 集中 分 析 等 降低 工程 事故 风险 、 优 化 勘探 过 程 等 
零售 行业 基于 用 户 位 置信 息 的 精确 促销 、 社 交 网 络 购 | 促进 客户 购买 热情 、 顺 应 客户 购买 行为 


买 行为 分 析 等 


习惯 等 


其 中 ,互联 网 .电信 ,金融 三 大 行业 大 数据 应 用 投资 占据 较 大 的 市 场 份额 ,分 别 达 到 
2954.20 ARI 17% ,如 图 10. 1 所 示 ( 数 据 来 源 : 赛 迪 顾问 ,2013. 06)。 


其 他 
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交通 
10% 


互联 网 
29% 


医疗 
6% 


图 10.1 大 数据 行业 应 用 比例 


互联 网 、 电 信和 人 金融 三 大 行业 大 数据 未 来 的 发 展 趋势 将 根据 行业 特点 进行 深入 的 大 
数据 应 用 ,其 发 展 趋势 如 下 9 ， 

(1) 营销 变革 、 信 息 变 革 及 业务 变革 将 是 互联 网 行业 大 数据 应 用 的 重点 。 

在 营销 变革 方面 ,互联 网 企业 可 以 利用 已 拥有 的 海量 数据 资源 改善 其 营销 方式 ,如 实 


时 精准 营销 、 针 对 性 的 消息 推送 等 ;在 信息 变革 方面 ,互联 网 企业 可 以 通过 分 析 海 量 数据 ， 
反映 出 整体 经 济 景气 程度 及 各 行业 的 变化 发 展 状况 ,并 能 预测 发 展 走势 ,为 各 行业 提供 信 
息 支 持 ;在 业务 变革 方面 ,从 多 互联 网 巨头 除了 可 以 在 相应 领域 建立 竞争 优势 之 外 ,还 可 
以 促进 业务 的 延伸 及 多 元 化 发 展 ,并 利用 数据 资源 探求 跨行 业 的 业务 融合 。 

(2) 服务 支撑 、 创 新 支撑 及 运行 支撑 将 是 电信 行业 大 数据 应 用 的 重点 o 

在 服务 支撑 方面 ,针对 个 人 客户 ,电信 运营 商 可 以 利用 大 数据 改善 个 人 客户 的 服务 体 


O 艾 瑞 咨询 集团 . 大 数据 行业 应 用 展望 报告 ,28/10/2013. 
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验 和 进行 服务 推荐 和 营销 ,针对 企业 客户 ,可 以 提出 具有 针对 性 的 整合 方案 ;在 创新 支撑 
方面 ,通过 业务 资源 和 账 务 多 方面 的 综合 分 析 , 可 以 帮助 电信 企业 进行 商业 决策 和 商业 模 
式 的 创新 ,同时 及 时 发 现 新 的 商业 机 会 进行 业务 创新 ,如 建立 商业 智能 系统 ;在 运行 支撑 
方面 ,可 以 利用 大 数据 提供 端 到 端的 网 络 质量 的 分 析 , 快 速 对 网 络 进行 定位 和 修复 ,在 提 
高 网 络 质 量 的 同时 ,还 可 以 降低 电信 网 络 运 营 的 管理 成 本 和 运 维 成 本 。 此 外 ,运营 商 还 可 
以 根据 数据 和 业务 的 生命 周期 .整合 新 的 IT 架构 和 原 有 的 架构 ,优化 组 织 架 构 , 提 升 内 
部 管理 能 力 。 

(3) 客户 洞察 ,市场 洞察 及 运营 洞察 将 是 金融 行业 大 数据 应 用 重点 。 

在 客户 洞察 方面 ,金融 企业 可 以 通过 对 行业 客户 相关 的 海量 服务 信息 流 数据 进行 捕 
提 及 分 析 , 以 提高 服务 质量 。 同 时 可 利用 各 种 服务 交付 渠道 的 海量 客户 数据 ,开发 新 的 预 
测 分 析 模 型 ,实现 对 客户 消费 行为 模式 进行 分 析 , 提 高 客户 转化 率 ; 在 市 场 洞 察 方面 ,大 数 
据 可 以 帮助 金融 企业 分 析 历 史 数据 ,寻找 其 中 的 金融 创新 机 会 ;在 运营 方面 ,大 数据 可 协 
助 企业 提高 风险 透明 度 , 加 强风 险 的 可 审 性 和 管理 力度 。 同 时 也 能 帮助 金融 服务 企业 充 
分 掌握 业务 数据 的 价值 ,降低 业务 成 本 并 发 掘 新 的 盈利 机 会 。 

据 预测 ,到 2016 年 ,整个 市 场 规 模 将 达到 30 亿 左 右 , 如 图 10.2 所 示 ( 数 据 来 源 : 
CCW Research, 1/2014), 
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随 着 行业 用 户 面临 着 海量 数据 的 存储 、 读 取 、 分 析 等 多 方面 的 需求 和 挑战 ,并 结合 大 
数据 在 互联 网 的 应 用 经 验 , 从 总 体 趋势 上 来 看 ,大 数据 未 来 的 发 展 趋势 将 把 数据 资产 化 
(拥有 数据 就 掌控 了 对 市 场 的 支配 和 巨大 的 经 济 回 报 ) 决策 智能 化 (从 数据 中 发 掘 洞察 )， 
以 及 大 数据 行业 应 用 的 垂直 整合 的 趋势 (大 数据 行业 应 用 的 垂直 整合 包括 从 硬件 到 软件 
再 到 服务 的 行业 垂直 整合 ) ;从 应 用 方向 上 来 看 ,通过 对 大 数据 的 储存 ,分 析 和 挖掘 、 大 数 
据 在 互联 网 营销 ,企业 管理 数据 标准 化 与 情报 分 析 等 领域 将 大 有 作为 ;从 技术 方向 上 来 
看 ,大 数据 的 存储 应 向 容量 大 、 易 扩展 、 更 高 性 能 、 多 集成 智能 化 、 安 全 可 靠 及 弹性 成 本 等 
方向 发 展 。 
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10.2 互联 网 大 数据 应 用 


大 数据 应 用 起 源 于 互联 网 行业 ,而 且 互联 网 也 是 大 数据 技术 的 主要 推动 者 。 随 着 互 
联网 和 移动 互联 网 快速 产生 的 各 类 数据 ,包括 用 户 行为 数据 ,网 页 数据 .系统 日 志 数 据 , 用 
户 交易 数据 等 ,映射 出 各 种 大 数据 的 创新 应 用 ,如 Facebook 对 用 户 基 本 属性 ,行为 习惯 和 
兴趣 等 进行 语义 分 析 ,为 广告 商 提 供 基 于 数据 挖掘 的 自助 式 广告 下 单 服务 系统 ;亚马逊 利 
用 大 数据 技术 为 用 户 提 供 社会 化 推荐 .广播 式 个 性 化 推荐 等 服务 ,从 而 加 快 产品 的 传播 速 
BE ;淘宝 对 于 大 数据 的 应 用 在 金融 方面 取得 了 良好 的 效果 ,在 营销 方面 也 陆续 推出 数据 魔 
Jr 淘宝 指数 等 数据 产品 ;Facebook 对 大 量 用 户 产品 使 用 状况 的 数据 进行 分 析 , 优 化 产品 
设计 及 服务 ,改善 用 户 的 使 用 体验 等 。 

针对 当前 互联 网 主要 面临 对 海量 数据 处 理 效率 低 、 实 时 分 析 能 力 差 ,数据 利用 率 不 高 
等 问题 ,并 结合 互联 网 行业 大 数据 业务 需求 的 特点 ,将 互联 网 行业 大 数据 总 体 架构 分 为 
5 层 ,分 别 为 数据 层 、 存 储 层 . 计 算 层 、 模 型 屋 和 应 用 层 。 其 中 ,数据 层 主要 实现 数据 采集 、 
数据 清洗 和 过 滤 等 ;存储 层 主要 用 于 存储 和 管理 互联 网 海量 关系 型 和 非 关 系 型 数据 ,解决 
各 种 结构 化 和 非 结构 化 数据 的 分 布 式 采 集 、 索 引 、 管 理 、 负 和 载 均衡 、 容 灾 备 份 等 ,如 索引 集 
中 存储 存储 访问 瓶颈 .关联 关系 计算 性 能 、 分 布 式 查询 比 对 等 ;计算 层 采用 目前 主流 的 批 
处 理 计算 MapReduce、 实 时 计算 Spark 和 流 式 计 算 Storm ,为 互联 网 海量 数据 的 处 理 和 分 
析 提 供 了 计算 支撑 ;模型 层 主要 支持 运行 于 分 布 式 文件 系统 和 分 布 式 计算 平台 之 上 的 分 
布 式 数据 挖掘 和 数据 分 析 算 法 ,如 逻辑 斯 特 回 归 、 朴 素 贝 叶 斯 分 类 算法 、K 均值 . 谱 聚 类 
算法 及 其 分 布 式 实现 等 ,提供 分 布 式 挖掘 算法 的 统一 操作 原 语 和 执行 引擎 ;应 用 层 是 按照 
互联 网 业务 需求 ,在 对 数据 资源 的 分 析 、 查 询 等 操作 结果 的 基础 上 为 用 户 提供 服务 。 互 联 
网 大 数据 的 总 体 架构 如 图 10. 3 所 示 。 
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图 10.3 互联 网 大 数据 架构 
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如 图 10. 3 所 示 的 架构 是 基于 Hadoop 的 大 数据 平台 之 上 实现 了 对 海量 用 户 点 击 数 
dii ,用户 行为 数据 .用户 日 志 数 据 进 行 有 效 的 存储 和 管理 ;利用 了 基于 Mahout 的 数据 挖 
气 和 数据 分 析 算 法 ,构建 用 户 行为 分 析 、 用 户 聚 类 分 析 、 并 联 分 析 、 用 户 兴 趣 等 模型 ;采用 
了 Hadoop 的 批 处 理 计算 MapReduce、 实 时 计算 Spark \ 流 式 计 算 Storm 等 分 布 式 计 算 技 
术 , 根 据 业 务 需求 可 选择 实现 对 互联 网 海量 数据 的 分 析 和 挖掘 ;利用 海量 数据 可 视 化 、 历 
史 流 展现 技术 ,空间 信息 流 展现 技术 、 时 间 序 列 展现 技术 、 社 会 化 网 络 关系 等 大 数据 展现 
技术 实现 用 户 互联 网 搜索 行为 、 消 费 行为 .关联 关系 及 用 户 趋势 展现 等 ,从 而 为 用 户 提供 
内 容 推荐 .个 性 化 营销 、 实 时 精准 广告 推荐 等 应 用 服务 。 


10.3 金融 行业 大 数据 应 用 


目前 ,金融 行业 的 信息 化 水 平 已 相当 高 ,众多 金融 机 构 都 建立 起 了 自己 的 数据 平台 ， 
对 金融 行业 的 交易 数据 ,如 银行 证券. 保险 等 各 个 金融 领域 的 数据 进行 采集 ,存储 和 处 
理 。 这 些 数据 具备 大 数据 4V 性 的 特点 ,而 传统 的 数据 分 析 手 段 已 无 法 满足 新 业务 需求 ， 
如 传统 数据 分 析 无 法 细 化 到 每 笔 交易 的 查询 ,分 析 , 对 海量 数据 的 处 理 计 算 能 力 、 原 有 数 
据 分 析 速 度 能 力 不 足 。 如 何 对 这 些 海 量 数据 进行 科学 的 分 析 处 理 、 挖 掘 隐藏 在 数据 内 部 
各 种 有 价值 的 关联 及 提供 决策 支持 ,成 为 金融 行业 面临 的 新 挑战 。 

由 于 金融 行业 的 很 多 业务 系统 都 已 经 建成 ,这 就 需要 金融 行业 的 大 数据 应 用 的 解决 
方案 能 全 面 整合 金融 数据 ,在 客户 深度 分 析 、 反 省 钱 、 反 欺诈 预警 等 方面 充分 发 挥 出 金融 
大 数据 的 价值 ,保证 金融 行业 海量 交易 数据 的 安全 性 、 可 靠 性 和 高 效率 的 运营 。 这 里 我 们 
需要 设计 一 种 可 嵌入 式 的 金融 行业 大 数据 平台 ,在 不 影响 现 有 业务 系统 正常 运作 的 前 提 
下 ,将 各 业务 系统 的 数据 进行 数据 整合 与 共享 。 金 融 行业 的 可 嵌入 式 大 数据 总 体 架 构 的 
设计 仍 可 分 为 5 层 , 分 别 为 数据 层 、 存 储 层 、 计 算 层 、 模 型 屋 和 应 用 层 , 如 图 10.4 所 示 。 
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图 10.4 金融 行业 大 数据 架构 
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如 图 10. 4 所 示 的 架构 是 基于 Hadoop 的 大 数据 平台 之 上 实现 了 对 海量 金融 交易 、 融 
资 融 券 数据 等 进行 有 效 的 存储 和 管理 ;在 模型 层 利用 了 数据 挖掘 和 数据 分 析 算 法 ,构建 风 
险 与 反 欺 诈 、 业 务 分析 、 营 销 分 析 、 用 户 特征 分 析 、 产 品 关联 等 模型 ;在 计算 层 采用 了 
Hadoop 的 批 处 理 计算 MapReduce、 实 时 计算 Spark、 流 式 计算 Storm 等 分 布 式 计算 技 
术 , 根 据 业 务 需求 可 选择 不 同 的 计算 引擎 实现 业务 数据 的 分 析 和 挖掘 ;利用 海量 数据 可 视 
化 .历史 流 展现 技术 、 空 间 信息 流 展现 技术 、 时 间 序 列 展现 技术 等 大 数据 展现 技术 提高 金 
融 数 据 的 直观 性 和 可 视 性 ,从 而 提升 金融 数据 的 可 利用 价值 。 


10.4 电信 行业 大 数据 应 用 


随 着 移动 互联 网 、 云 计算 等 新 技术 的 兴起 ,传统 的 电信 运营 商 已 从 传统 的 语言 业务 结 
合 少 量 的 数据 业务 转型 为 以 数据 业务 为 主体 的 业务 模式 ,从 而 促使 电信 行业 的 业务 系统 
呈现 了 新 的 业务 形态 和 数据 类 型 。 面 对 海量 的 结构 和 非 结 构 化 数据 对 电信 行业 所 带 来 的 
挑战 已 不 再 局 限于 存储 和 传输 的 问题 ,更 重要 的 是 如 何 做 好 海量 结构 化 和 非 结构 化 数据 
的 分 析 , 从 而 更 好 地 服务 客户 、 提 高 业务 效率 等 。 

针对 当前 电信 行业 主要 面临 对 海量 数据 处 理 效率 低 .数据 利用 率 不 高 等 问题 ,并 结合 
电信 行业 大 数据 业务 需求 的 特点 ,引入 电信 行业 大 数据 ,实现 对 海量 的 文本 图片 .语音 、 
视频 等 非 结 构 化 数据 和 业务 系统 产生 的 结构 化 数据 的 存储 ,管理 .分 析 挖 掘 。 我 们 将 电信 
行业 大 数据 应 用 的 总 体 架 构 仍 分 为 5 层 ,分 别 为 数据 层 、 存 储 层 `. 计 算 层 、 模 型 层 和 应 用 
层 , 如 图 10.5 所 示 。 
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图 10.5 电信 行业 大 数据 架构 
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如 图 10.5 所 示 的 架构 是 基于 Hadoop 的 大 数据 平台 之 上 实现 了 对 海量 用 户 话 单数 
di ,用户 行为 数据 .用户 基本 数据 等 进行 有 效 的 存储 和 管理 ;利用 数据 挖掘 和 数据 分 析 算 
法 ,构建 网 络 优化 .用 户 聚 类 分 析 、 用 户 关系 网 、 用 户 兴 趣 等 模型 ;采用 了 Hadoop 的 批 处 
理 计 算 MapReduce、 实 时 计算 Spark ` 流 式 计 算 Storm 等 分 布 式 计算 技术 ,根据 业务 需求 
可 选择 实现 对 电信 行业 海量 数据 的 分 析 和 挖掘 ;利用 海量 数据 可 视 化 .历史 流 展现 技术 、 
空间 信息 流 展现 技术 、 时 间 序 列 展现 技术 、 社 会 化 网 络 关系 等 大 数据 展现 技术 实现 流量 经 
营 、 网 络 优化 .数据 服务 .个 性 化 服务 等 。 


10.5 医疗 行业 大 数据 应 用 


随 着 医疗 技术 的 发 展 ,医疗 行业 积累 了 大 量 不 同类 型 的 数据 ,如 健康 档案 、 电 子 病历 、 
医学 图 像 等 海量 数据 ,已 成 为 医疗 行业 宝贵 的 财富 。 这 些 数 据 存在 着 数据 量 庞大 ,数据 类 
型 复杂 多 变数 据 利用 率 低 等 问题 ,而 且 随 着 健康 医疗 的 不 断 发 展 , 非 结 构 化 数据 增 速 将 
持续 加 快 ,传统 的 关系 型 数据 库 在 存储 大 数据 集 时 失去 性 能 、 功 能 和 成 本 优势 ,并 且 在 处 
理 和 查询 大 数据 集 时 更 是 力不从心 。 如 果 能 够 对 这 些 数据 进行 有 效 的 存储 、 处 理 、 查 询 和 
分 析 , 就 可 以 帮助 临床 医生 做 出 更 为 科学 准确 的 诊断 .用药 决策 .病理 分 析 . 人 体 健康 度 分 
析 、 个 性 化 差异 分 析 等 。 

针对 当前 医疗 行业 主要 面临 数据 量 增长 速度 快 .数据 类 型 复杂 多 变 、 对 海量 数据 处 理 
效率 低 ,数据 利用 率 不 高 等 问题 ,结合 医疗 行业 大 数据 业务 需求 的 特点 ,引入 医疗 行业 大 
数据 ,有 助 于 健康 档案 数据 的 管理 和 服务 、 基 础 医疗 服务 、 临 床 决策 支持 ,疾病 模式 分 析 、 
个 性 化 医疗 等 。 我 们 将 医疗 行业 大 数据 应 用 的 总 体 架构 仍 分 为 5 层 ,分 别 为 数据 层 、 存 储 
层 、 计 算 层 、 模 型 层 和 应 用 层 , 如 图 10. 6 所 示 。 
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10.6 ”医疗 行业 大 数据 架构 
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如 图 10.6 所 示 的 架构 是 基于 Hadoop 的 大 数据 平台 之 上 实现 了 对 用 户 病 历数 
据 .临床 数据 .用 户 就 诊 数据 等 进行 有 效 的 存储 和 管理 ;在 模型 层 利用 了 数据 挖掘 和 
数据 分 析 算 法 ,构建 临床 分 析 、 用 户 行为 分 析 、 疾 病 特征 分 析 、 病 毒 扩散 、 基 因 分 析 等 
模型 ;在 计算 层 采用 了 Hadoop 的 批 处 理 计 算 MapReduce、 实 时 计算 Spark, Ñi H 
Storm 等 分 布 式 计算 技术 ,根据 业务 需求 可 选择 不 同 的 计算 引擎 实现 业务 数据 的 分 
析 和 挖掘 ;利用 海量 数据 可 视 化 、 历 史 流 展现 技术 、 空 间 信息 流 展现 技术 、 时 间 序 列 
展现 技术 等 大 数据 展现 技术 提高 医疗 行业 数据 的 直观 性 和 可 视 性 ,从 而 提升 医疗 行 
业 数 据 的 可 利用 价值 。 


10.6 智慧 交通 大 数据 应 用 


大 数据 下 的 智慧 交通 就 是 整合 传感器 ,监控 视频 和 GPS 等 设备 产生 的 海量 数据 ,并 
结合 气象 监测 设备 产生 的 天 气 状况 数据 人口 分 布 数据 、 移 动 通信 数据 等 相 结合 ,从 这 些 
数据 中 洞察 出 我 们 真正 需要 的 有 价值 信息 ,从 而 实现 智能 交通 公共 信息 服务 的 实时 传递 
和 快速 反应 的 应 急 指挥 .智能 交通 业务 联动 快速 应 对 .可视化 事件 跟踪 、 套 牌 实 时 监测 预 
警 等 。 然 而 , 面 对 每 天 近 千 万 辆 轿车 、 轨 道 交 通 、 快 速 公 交 系 统 , 以 及 高 并 发 事件 、 实 时 数 
据 流 的 处 理 需求 ,对 海量 非 结 构 化 数据 的 组 织 与 分 析 需 求 等 ,成 为 智慧 交通 面临 的 重大 
挑战 。 

基于 大 数据 的 智慧 交通 可 以 有 效 地 管理 交通 数据 ,如 可 集中 访问 分 散 存 储 在 不 同 
支队 数据 中 心 的 图 像 或 视频 等 交通 数据 ;提高 对 海量 数据 的 利用 ,如 可 从 海量 数据 中 
挖掘 出 有 价值 的 信息 为 公安 治安 、 刑 侦 、 经 侦 等 部 门人 员 及 一 线 民警 提供 信息 支撑 服 
务 ; 改 善 交通 ,如 提高 对 各 种 交通 突 发 事件 的 应 急 调 度 能 力 ,依据 历史 数据 预测 交通 或 
突 发 事件 的 趋势 。 由 于 交通 行业 已 经 过 多 年 的 信息 化 发 展 , 智 慧 交通 大 数据 应 用 的 总 
体 架 构 可 分 别 为 感知 层 、 传 输 层 、 数 据 层 、 存 储 层 、 计 算 层 、 模 型 层 、 应 用 层 。 其 中 ,感知 
层 主要 由 传感器 、 雷 达 接 收 器 、RFID 阅读 器 、 感 应 处 理 器 、 红 外 接收 器 等 组 成 ,传输 层 
主要 功能 是 将 前 端 采集 的 数据 传输 到 智慧 交通 大 数据 平台 上 ,所 以 从 严格 意义 上 讲 感 
知 层 和 传输 层 并 不 真正 属于 智慧 交通 大 数据 架构 的 范畴 ,但 为 了 智慧 交通 大 数据 解决 
方案 的 完整 性 ,将 感知 层 和 传输 层 加 入 到 大 数据 架构 中 。 智 慧 交通 大 数据 的 总 体 架 构 
如 图 10.7 所 示 。 

基于 Hadoop 的 智慧 交通 大 数据 平台 可 有 效 地 存储 和 管理 交通 数据 ,并 可 通过 
模型 层 对 这 些 数据 进行 有 效 的 分 析 , 从 交通 数据 中 挖掘 出 潜在 的 交通 风险 ,把 事后 
处 理 转换 为 事前 预警 的 工作 模式 ,为 公安 、 交 通 等 各 行 各 业 提 供 更 为 有 效 的 业务 信 
息 支 持 。 
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图 10.7 智慧 交通 大 数据 架构 


10.7 大 数据 应 用 案例 


从 不 同行 业 的 大 数据 架构 可 以 看 出 ,基于 Hadoop 的 大 数据 行业 应 用 的 区 别 在 于 数 
据 层 数 据 源 和 数据 类 型 的 不 同 ;存储 层 和 计算 层 根据 实际 业务 需求 不 同 选择 不 同 的 存储 
介质 和 计算 引擎 ;模型 层 根据 业务 需求 不 同 ,根据 数 据 挖掘 和 机 器 学 习 算 法 实现 各 种 类 型 
的 模型 ;应 用 层 根 据 业务 应 用 特点 实现 不 同 的 应 用 。 其 中 ,模型 层 是 整个 大 数据 的 核心 部 
分 ,也 是 区 别 于 不 同行 业 应 用 的 最 核心 部 分 。 模 型 层 为 上 层 应 用 提供 了 数据 支撑 ,应 用 层 
是 区 别 于 不 同行 业 应 用 的 外 在 表现 。 本 节 将 列举 在 互联 网 行业 和 智慧 交通 行业 大 数据 应 
用 的 具体 案例 。 


1071 互联 网 大 数据 应 用 案例 


用 户 在 互联 网 产生 了 海量 的 用 户 日 志 行为 数据 ,通过 数据 挖掘 的 方法 可 以 挖掘 出 有 
用 的 信息 。 本 实例 将 以 用 户 日 志 数 据 为 基础 ,通过 大 数据 进行 用 户 行为 分 析 , 如 针对 用 户 
在 购物 网 站 访问 网 页 的 信息 ,可 以 挖掘 出 用 户 的 兴趣 点 ,从 而 进行 物品 推荐 。 由 于 互联 网 
用 户 日 志 数量 级 在 急剧 扩充 ,传统 的 单机 版 分 析 程 序 已 无 法 胜任 海量 日 志 分 析 的 需求 , 因 
此 ,基于 Hadoop 的 大 数据 分 析 平 台 成 为 首要 考虑 的 技术 框架 。 


e 3429 深入 浅 出 大 数据 


1. 技术 路 线 选 择 


基于 图 10. 3 的 互联 网 大 数据 架构 ,在 数据 层 方 面 主要 是 针对 互联 网 用 户 产生 的 日 志 
数据 为 主要 处 理 和 分 析 对 象 ;在 数据 存储 层 方面 主要 选用 分 布 式 存储 HDFS( 用 于 存储 海 
量 日 志 数 据 )、 分 布 式 表 存 储 HBase( 建 立 海量 数据 的 列 式 查 询 ) 和 数据 仓库 Hive( 用 于 对 
海量 数据 进行 分 析 挖 掘 ); 在 计算 层 主要 选用 批 处 理 计算 MapReduce 模式 (日 志 分 析 并 没 
有 很 高 的 实时 性 要 求 ) ;在 模型 层 需要 为 用 户 访问 的 网 页 行为 进行 建 模 ; 在 应 用 层 实现 对 
用 户 兴趣 挖掘 的 实现 。 具 体 的 部 署 实 现 如 图 10. 8 所 示 。 
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图 10.8 日 志 分 析 的 部 署 实现 


从 图 10. 8 可 以 看 出 ,基于 Hadoop 的 用 户 日 志 分 析 应 用 首先 从 互联 网 通过 采集 服务 
器 (这 里 可 用 Flume 或 Kafka 等 数据 采集 工具 ) 采 集 用 户 日 志 数 据 或 从 已 有 的 数据 库 
(COracle 或 MySQL 等 ) 进 行 数 据 同 步 ( 这 里 可 用 Sqoop 数据 同步 工具 )。 然 后 ,将 采用 的 
数据 存 人 分 布 式 文件 系统 HDFS 中 ,通过 批 处 理 计算 MapReduce 进行 数据 抽取 、 分 析 等 
ETL 工作 。 将 ETL 后 的 数据 写 入 分 布 式 列 式 数据 库 HBase, 以 便 进行 查询 或 为 下 一 步 
的 分 析 做 好 准备 工作 。 最 后 ,在 HBase 中 选择 要 进行 分 析 的 数据 集合 写 人 到 数据 仓库 
Hive 中 ,通过 模型 层 的 数据 挖掘 算法 来 对 Hive 中 的 数据 进行 数据 分 析 和 挖掘 ,并 将 结果 
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反馈 给 客户 端 。 整 个 Hadoop 集群 由 集群 管理 服务 器 ZooKeeper 和 任务 调度 服务 器 
Oozie 来 负责 整个 集群 的 管理 和 MapReduce 作业 的 调度 工作 。 

2. 用 户 行为 建 模 

日 志 分 析 应 用 案例 在 数据 层 和 存储 层 的 相关 细节 请 结合 前 面 章 节 的 知识 点 自行 解 

决 ,这 里 将 不 再 袭 述 。 本 节 将 重点 放 在 如 何 通 过 用 户 行为 建 模 实现 海量 日 志 分 析 应 用 。 
用 户 在 互联 网 访问 网 页 时 ,一 般 都 会 在 系统 日 志 中 存储 一 条 记录 (用 户 十 URL 十 访问 时 
间 ) ,这 些 网 页 记录 是 推断 用 户 行为 的 基础 ,用 户 行为 建 模 过 程 如 下 。 

CD 根据 URL 得 到 网 页 内 容 信息 ,并 对 网 页 内 容 通过 机 器 学 习 算法 进行 处 理 , 从 而 
得 到 代表 此 网 页 的 几 个 关键 词 ; 

(2) 对 用 户 访问 关键 词 信息 进行 汇总 ,得 到 用 户 关注 的 关键 词 列 表 , 并 对 每 个 关键 词 
在 URL 中 出 现 的 次 数 来 赋予 不 同 的 权重 ; 

(3) 对 用 户 关注 的 关键 词 列表 进行 一 定 的 扩展 或 归 约 操作 ,从 而 得 到 更 加 具有 意义 
的 关键 词 信息 ,更 好 地 表达 用 户 的 兴趣 点 。 

根据 用 户 行为 建 模 的 流程 ,将 各 个 模块 进行 并 行 化 MapReduce 实现 。 其 中 整个 应 用 
的 输入 是 用 户 访问 网 页 记录 组 成 的 日 志文 件 , 每 行 表 示 用 户 访问 网 页 的 一 条 记录 ,其 形 
式 为 : 


HIP: UL 


期 望 输出 为 用 户 的 兴趣 点 文件 ,文件 每 行 存储 每 个 用 户 的 兴趣 点 ,其 形式 为 : 
用 户 词 1 权重 1 词 2 权重 2 词 3 权重 3… 


对 于 关键 词 权重 的 衡量 标准 可 以 把 该 词 在 单一 网 页 中 出 现 的 次 数 TF 和 在 所 有 网 页 
中 出 现 的 次 数 DF 作为 参考 标准 ,通过 机 器 学 习 算 法 计算 出 其 关键 词 的 权重 。 首 先 通过 
MapReduce 来 计算 关键 词 在 单一 网 页 中 出 现 的 次 数 TF,MapReduce 设计 如 下 。 

1) Map 

Map 的 输入 为 二 用 户 ,URL 玫 列表 ,对 于 单条 记录 ,进行 URL JE di flr is]. ,得 到 用 户 
访问 的 该 网 页 中 包含 所 有 词 的 信息 。 当 遇 到 一 个 词 ,Map 进行 一 次 输出 ,key 为 用 户 十 网 
页 十 词 ,value 为 1。 还 可 以 统计 该 词 的 其 余 特 征 值 ,如 词性 等 。 这 里 为 方便 演示 就 不 再 
增加 其 他 特征 ,读者 可 自行 添加 。 

2) Reduce 

Reduce 是 将 Map 输出 结果 中 相同 的 key 汇聚 到 一 起 ,并 将 用 户 十 网 页 十 词 仍 作为 
key 进行 输出 ,将 每 组 中 记录 条 数 作 为 value 进行 输出 。 这 样 Reduce 的 输出 结果 文件 对 
应 记录 为 : 用 户 十 URL 十 TF。 

为 了 提高 处 理 效率 ,可 以 在 Map 阶段 完成 每 个 词 的 TF 统计 ,从 而 减少 了 Map 和 
Reduce 之 间 大 量 数据 传输 的 时 间 消 耗 ,具体 的 做 法 是 采用 数据 结构 hashMap — String. 
value* , Map 的 输入 不 变 , 只 是 执行 一 次 Map 操作 的 结果 加 入 到 hashMap 中 ,其 中 key 


QC) sxsuxus 


为 词 ,value 变 为 原来 value 值 十 1。 这 样 就 可 将 Reduce 阶段 省 略 , 具 体 实现 代码 如 下 。 


public class TF extends Configured implements Tool, Mapper< Text, Text, Text, IntWritable^ { 
public void map (Text usr, Text url, OutputCollector« Text, IntWritable» output, Reporter reporter) 


throws IcExoeption ( 
//HastMap 统 计 TF 
HashMap< Text, int> wordCount- new HashMap< Text, int> (); 
Text [] words- callCraw] (url); [AARRE 
for (Text: word: words) ( / Bei isl Uo f 8, 


int count- wordCount.get (word) 7 
wordCount..put (word, (count 0) ? (count 1) :1) ; 
} 
Iterator< Text, int» iter- wordcount.entrySet() .iterator (); 
while (iter.hasNext ()) ( 
Map.Entry< Text, int> entry= iter.next () ; 
/ Nep fii Hi „key y Fl P! +url+ ii] value Jy TF 
output.collect (usr+ url+ entry.getKey (), entry.getValue ()) ; 
) 
} 
public void runcal (Path input, Path output)throws IOExcepticn { 
Jobconf jdo- new JabConf (getConf (), TECal.class); 
// 设 置 InputPath, outPath, MagperClass, InputFormet, OutputFormet, +++ 
job. setReduoeNum (0) ; //Feduce 数目 设 为 0, 不 进行 Reduce fL E 
Jabclient.runJob(jab)7 


) 


然后 ,通过 MapReduce 来 计算 关键 词 在 所 有 网 页 中 出 现 的 次 数 DF。 在 DF 信息 基 
础 上 再 通过 MapReduce 来 计算 每 个 词 的 权重 , 即 该 词 成 为 网 页 关键 词 的 概率 ,此 处 可 以 
设 定 一 个 阔 值 ,如 果 该 词 成 为 关键 词 的 概率 大 于 阔 值 ,表示 该 词 可 以 成 为 该 网 页 的 关键 
ig] ,将 其 输出 ,否则 忽略 。MapReduce 的 具体 设计 如 下 。 

1) Map 

Map 的 输入 为 TF 计算 阶段 的 输出 ,key 为 用 户 十 网 页 十 词 , value 为 词 的 TF, Z 
Map 阶段 将 除去 网 页 信息 ,其 输出 key 为 用 户 十 词 ,输出 的 value 为 1。 

2) Reduce 

Reduce 以 Map 输出 作为 输入 ,用 户 访问 词 相同 的 会 被 同一 个 Reduce 进行 处 理 ， 
Reduce 中 统计 该 组 包含 记录 的 数目 , 即 为 该 关键 词 的 DF。 这 里 为 方便 查询 到 关键 词 DF 
的 信息 ,将 Reduce 阶段 的 输出 以 索引 文件 的 形式 进行 输出 (使 用 Lucene 建立 索引 的 机 
制 ),Reduce 的 输出 key 为 用 户 十 词 ,value 为 DF 值 。 

通过 MapReduce 来 计算 关键 词 在 所 有 网 页 中 出 现 的 次 数 DF 及 每 个 词 的 权重 的 具 
体 实现 代码 如 下 。 
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Puiblic class DF extends Configured implements Tool, Mapper< Text, IntWritable, Text, IntWritable>, 
Reducer« Text, IntWritable, Text, LuceneDocumentWrapper^ { 
reporter)throws ICExoeption { 
// 将 ey 拆 分 成 user, url, word 三 部 分 
output .col lect (usert word, new IntWritable(1); 


public void reduce (Text key, Iterator« IntWritable» iter, OutputCollector 
«Ext, uceneDoourentiiragper output, Reporter reporter) throws ICEsoepticn { 
int 号 iter 中 包含 元 素数 目 ; 
/建立 Incene 索引, 以 用 户 + 词 为 key, DE 作为 value, 进 行 存储 
Document. doc= new Document () ; 
doc.add (new Field("word", key.toString(), Field.Store.NO,Field.Index.UN TOKENIZED)); 
doc.add (new Field("DE", df, Field.Store.YES, Field.Tndex.NO) ) ; 
Output .col lect (new Text () , new LuceneDoamentWrapper (doc) ) ; 
) 


public void runDF (Path input, Path output)throws IOException { 
JdbConf jdb- new JctConf (getConf () , DECal class); 
// 设 置 InpatPath, outPath, MapperClass, TrputFormat, + 
// 设 置 输出 格式 为 LuoencOutputFormat 
jcb.setOutputFormat (DoeneOutputFormmat)7 
Jobclient.mrunJab cb); 
// 合 并 各 个 Reduce 阶段 生成 的 索引 文件 为 一 个 完整 索引 文件 
/实现 Incene 的 Indexriter 类 


) 


// 计 算 每 个 词 的 权重 
String fWeights[]; // 记 录 特 征 权重 
IndexSearcher searcher- null; // 用 于 查询 Iacene 索 引文 件 


output, Reporter reporter) throws ICEsceptian ( 
// 解 析 key, 从 中 得 到 词 信息 ,再 查找 索引 文件 ,得 到 DE 
Term t= new Term("word", word); 
Query query- new TemQuery (t) ; 
Hits hits- searcher.search (query) ; 
if(hits.length- - 1) ( 

Document doc- hits.doc (0) ; 
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String d£- doc.get ("DE") ; 
// 从 词 信息 中 提取 出 来 每 个 特征 对 应 取 值 ， 存 储 在 数组 val 中 
weight-sum(val[i] X fweights[i]); // 计 算 该 词 作为 关键 词 权重 
if(weight »— threshold) // 权 重大 于 阔 值 的 视 为 网 页 关键 词 
/人 关键 词 输出 key 包含 用 户 + 关 键 词 ,value 为 1 
autput.collect (key, new Writable(1)); 
} 
} 


public void configure (Jabconf jab){ 
String fWeightPath- jdo.getStrings ("fweight path") ; // 内 部 获得 特征 权重 路 径 
// 读 取 特 征 权重 文件 ,得 到 特征 权重 列表 , 填 人 feights 
String dfPath- jdb.getStrings ("DF.path") ; 
FsDirectory fsDi rectory- new FsDirectory (Fi leSystem.get (getConf ()) ,dfpath, false, getConf ()) ; 
Searcher= new IndexSearder (fsDirectory) ; 

1 

public void rnkeyWord (String input, String output, String DFPath) ( 


String featureiieightFile; 

MachineLearning (featureWeightFi le) ; // 调 用 机 器 学 习 算 法 ,计算 特征 权重 
JabConf jab- new Jabconf(getConf () ,KeyWord.class); 

// 设 置 参数 ,以 传人 Map fll configure 

jcb.setStrings ("fieight.path", featureWeightFile); 

jdb.setStrings ("DF.path", DFPath) ; // 设 置 正 索引 文件 位 置 


) 


最 后 ,在 获得 了 关键 词 列表 的 基础 上 进行 扩展 ,扩展 的 思想 有 很 多 种 ,这 里 就 简单 介 
绍 其 中 一 种 扩展 方法 : 对 于 关键 词 列表 中 的 每 个 词 A, 通 过 查找 得 到 与 词 A 相关 的 词 列 
K AL. W AL ,如 果 Ar 中 的 词 B 也 被 用 户 访问 过 ,那么 要 将 用 户 访 问 词 B 的 值 XA 和 
B 的 相关 度 的 结果 加 入 到 A 的 旧 值 上 ;如 果 A. 中 的 词 C 用 户 没 有 访问 过 , 则 要 把 词 C 加 
入 到 用 户 访 问 词 列表 中 ,并 将 词 A 的 旧 值 XA 和 C 的 相关 度 加 入 到 词 C 值 上 。 该 过 程 只 
需要 一 个 Map 过 程 即 可 完成 操作 。Map 以 用 户 访问 的 词 列表 作为 输入 ,key 为 用 户 ， 
value 为 关键 词 列表 ,Map 的 输出 key 仍 为 用 户 ,value 为 用 户 访 问 的 词 列表 及 对 应 的 新 
的 关注 度 值 ,具体 的 代码 实现 如 下 。 


public class WordExp extends Configured implements Tool, Mapper< Text, Text, Text, Text > ( 
IndexSearcher searcher- null; // 用 于 查询 Iacene 索 引文 件 
public void map (Text key, Text val, OutputCollector« Text,Text> output, Reporter reporter) throws 
TOException ( 
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HashMap String, float» words; //key 为 词 ,value 为 用 户 访问 该 词 的 权重 
Hasap String, float» wordNewInfo; // 存 储 调整 后 的 列表 信息 
/| 将 val 关键 词 信息 进行 解析 ,依次 置 人 words; 
// 复 制 words 中 信息 至 wordNewInfo rp. ; 

for (words 中 每 一 个 关键 词 word) ( 

float wl- words.get (word) ; 

/查找 Incene 索引 文件 ,得 到 该 词 相关 词 列 表 corrards; 

for (corrWords 中 每 个 词 corrw) ( 

// 如 果 corW 也 被 用 户 访问 ,修改 两 个 词 的 权重 

if((float w2- words.get (corrW) ) != null) ( 

wordsNewInfo.put (word, wordsNewInfo.get (word)+w2 * corrW.pij); 

wordsNewInfo.put (corrW, wordsNewInfo.get(corrW)*wl * corrW.pij); 

Jeiset // 如 果 未 被 访问 ,将 词 加 入 到 用 户 访问 列表 中 
wordsNewInfo.put(corrW, wl * corrW.pij); 
j 
) 

) 

String wordListNew- ""; 

for (wordNewInfo 中 每 个 元 组 entry) 

wordListNew= wordListNewt entry.getKey ()+ entry.getVal () ; 

output.collect (key, new Text (wordLi stNew) ; 

Hj 


) 


到 此 ,就 完成 了 用 户 行为 分 析 建 模 。 该 模型 在 应 用 层 可 实现 精准 的 广告 营销 、 内 容 推 
荐 、 用 户 行为 分 析 等 应 用 。 例 如 ,在 内 容 推 荐 或 实时 精准 广告 营销 方面 ,如 果 根 据 应 用 关 
注 的 网 页 中 提取 出 的 关键 词 是 “足球 "“ 篮 球 "“ 游 泳 "等 ,而 这 些 词 都 被 划分 为 体育 类 , 通 
过 用 户 行为 模型 ,可 以 推测 出 该 用 户 对 “体育 "比较 感 兴趣 , 则 可 以 多 推荐 体育 方面 的 内 容 
或 体育 类 的 产品 。 有 关 应 用 层 更 多 的 应 用 ,读者 需要 根据 实际 的 业务 需求 来 设计 应 用 
场景。 
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随 着 机 动车 辆 不 断 增加 、 交 通 运 输 也 越 来 越 繁忙 ,交通 数据 以 每 年 60% 的 速度 不 断 
增长 ,这 些 数据 被 分 散 存 储 在 不 同 的 市 .区 、 县 级 的 数据 中 心 , 跨 数据 中 心 使 用 这 些 数 据 非 
常 不 便 ,而 且 依靠 传统 的 手工 方式 实现 数据 查询 和 统计 分 析 的 效率 随 着 数据 量 的 增加 变 
得 越 来 越 低 ,对 数据 的 利用 率 不 高 。 

基于 图 10. 7 的 智慧 交通 大 数据 架构 ,在 感知 层 和 传输 层 方面 主要 是 将 采集 的 交通 数 
据 传输 到 数据 层 ;在 数据 层 方面 主要 是 将 这 些 分 散 的 数据 进行 资源 整合 ,为 下 一 步 的 数据 
处 理 和 分 析 提 供 必要 保障 ;在 存储 层 方面 主要 选用 分 布 式 存储 HDFS( 用 于 存储 海量 日 志 
数据 )、 分 布 式 表 存 储 HBase( 建 立 海量 数据 的 列 式 查 询 ) 和 数据 仓库 Hive( 用 于 对 海量 数 
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据 进 行 分 析 挖 掘 ) ;在 计算 层 主要 选用 批 处 理 计算 MapReduce 模式 (用 于 对 实时 性 要 求 不 
高 的 数据 处 理 业 务 ) 和 实时 计算 Spark 模式 (用 于 实时 流 的 数据 处 理 ) ;在 模型 层 需要 为 车 
辆 轨迹 分 析 、 套 牌 分 析 等 应 用 提供 数据 分 析 模 型 ;在 应 用 层 实现 以 数据 为 驱动 的 道路 通行 
实时 状况 分 析 、 交 通 事故 统计 分 析 等 应 用 ,具体 的 部 署 实现 如 图 10. 9 所 示 。 
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图 10.9 智慧 交通 大 数据 部 署 实现 


其 中 ,智慧 交通 大 数据 平台 中 所 选择 的 技术 路 线 的 软件 架构 如 图 10. 10 所 示 。 
实时 查询 
^ 
AH HDFS —( HBase ` 
要 一 ce 
Cw Ce 


10.10 智慧 交通 大 数据 平台 软件 架构 


EK: + 4 
š 


采用 基于 Hadoop 的 智慧 大 数据 平台 可 解决 海量 交通 数据 存储 和 管理 、 无 颖 容量 扩 
充 , 利 用 大 数据 分 析 技 术 实 现 对 交通 数据 的 智能 、 高 效 的 处 理 和 分 析 , 提 高 了 车 辆 轨迹 分 
析 、 套 牌 分 析 、 车 辆 查缉 布控 等 系统 的 查询 性 能 及 实时 性 ,充分 挖掘 数据 背后 的 隐藏 价值 。 


附 表 1 Hadoop 默认 端口 及 作用 


端口 ft A 
8030 yarn. resourcemanager. scheduler. address 
8031 yarn. resourcemanager. resource-tracker. address 
8032 yarn. resourcemanager. address 
8033 yarn. resourcemanager. admin. address 
8040 yarn. nodemanager. localizer. address 
8042 yarn. nodemanager. webapp. address 
8088 yarn, resourcemanager. webapp. address 
8090 yarn, resourcemanager. webapp. https. address 
8188 yarn. timeline-service. webapp. address 
8480 dfs. journalnode. rpc-address 
8481 dfs. journalnode. https-address 
9000 fs. defaultFS 
9001 dfs. namenode. rpc-address 
10020 mapreduce. jobhistory. address 
19888 mapreduce. jobhistory. webapp. address 
50010 dfs. datanode. address 
50020 dfs. datanode. ipc. address 
50070 dfs. namenode. http-address 
50075 dfs. datanode. http. address 
50090 dfs. namenode. secondary. http-address 
50091 dfs. namenode. secondary. https-address 
50100 dfs. namenode. backup. address 
50105 dfs. namenode. backup. http-address 
50470 dfs. namenode. https-address 
50475 dfs. datanode. https. address 
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附 表 2 Hadoop 1.0 与 Hadoop 2. 0 属性 名 称 变化 对 比 


Hadoop 1.0 属性 名 称 


Hadoop 2.0 属性 名 称 


create. empty. dirif. nonexist 


mapreduce. jobcontrol. createdir. ifnotexist 


dfs. access. time. precision 


dfs. namenode. accesstime. precision 


dfs. backup. address 


dfs. namenode. backup. address 


dfs. backup. http. address 


dfs. namenode. backup. http-address 


dfs. balance. bandwidthPerSec dfs. datanode. balance. bandwidthPerSec 
dfs. block. size dfs. blocksize 
dfs. data. dir dfs. datanode. data. dir 


dfs. datanode. max. xcievers 


dfs. datanode. max. transfer. threads 


dfs. df. interval 


fs. df. interval 


dfs. replication. min 


dfs. namenode. replication. min 


dfs. replication. pending. timeout, sec 


dfs. namenode., replication. pending. timeout-sec 


dfs. safemode. extension 


dfs. namenode, safemode. extension 


dfs. safemode. threshold. pct 


dfs. namenode. safemode. threshold-pct 


dfs. secondary. http. address 


dfs. namenode. secondary. http-address 


dfs. socket. timeout 


dfs. client. socket-timeout 


dfs. umaskmode 


Ís. permissions. umask-mode 


dfs. write. packet. size 


dfs. client-write-packet-size 


Ís. checkpoint. dir 


dfs. namenode., checkpoint. dir 


fs. checkpoint. edits. dir 


dfs. namenode. checkpoint. edits. dir 


fs. checkpoint. period 


dfs. namenode. checkpoint. period 


fs. default. name 


fs. defaultFS 


hadoop. configured. node. mapping 


net. topology. configured. node. mapping. 


hadoop. job. history. location 


mapreduce. jobtracker. jobhistory. location 


hadoop. native. lib 


io. native. lib. available 


hadoop. net. static. resolutions 


mapreduce. tasktracker. net. static. resolutions 


hadoop. pipes. command-file. keep 


mapreduce. pipes. commandfile. preserve 


hadoop. pipes. executable. interpretor 


mapreduce. pipes. executable. interpretor 


hadoop. pipes. executable 


mapreduce. pipes. executable 


hadoop. pipes. java. mapper 


mapreduce. pipes. isjavamapper 


hadoop. pipes. java. recordreader 


mapreduce. pipes. isjavarecordreader 


hadoop. pipes. java. recordwriter 


mapreduce. pipes. isjavarecordwriter 
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续 表 

Hadoop 1.0 属性 名 称 Hadoop 2.0 属性 名 称 
hadoop. pipes. java. reducer mapreduce. pipes. isjavareducer 
hadoop. pipes. partitioner mapreduce. pipes. partitioner 
heartbeat. recheck. interval dfs. namenode. heartbeat. recheck-interval 
io. bytes. per. checksum dfs. bytes-per-checksum 
io. sort. factor mapreduce. task. io. sort. factor 
io. sort. mb mapreduce. task. io. sort. mb 
io. sort. spill. percent mapreduce, map. sort. spill. percent 
jobclient. completion. poll. interval mapreduce. client. completion. pollinterval 
jobclient. output. filter mapreduce. client. output. filter 
jobclient. progress. monitor. poll. interval mapreduce. client. progressmonitor. pollinterval 
job. end. notification, url mapreduce. job. end-notification, url 
job. end. retry. attempts mapreduce. job. end-notification, retry. attempts 
job. end. retry. interval mapreduce. job. end-notification, retry. interval 
job. local. dir mapreduce. job. local. dir 
keep. failed. task. files mapreduce. task. files. preserve. failedtasks 
keep. task. files. pattern mapreduce. task. files. preserve. filepattern 


"WE " mapreduce. input. keyvaluelinerecordreader. key. 
key. value. separator. in. input. line 
value. separator 


local. cache. size mapreduce. tasktracker. cache. local. size 
map. input. file mapreduce. map. input. file 

map. input. length mapreduce. map. input. length 

map. input. start mapreduce. map. input. start 

map. output. key. field. separator mapreduce. map. output. key. field. separator 


" mapreduce. fieldsel. map. output. key. value. 
map. output, key. value. fields. spec " 
fields. spec 


mapred. acls. enabled mapreduce. cluster. acls. enabled 


mapred. binary. partitioner. left. offset mapreduce. partition, binarypartitioner. left. offset 


š T 2 mapreduce. partition. binarypartitioner. right. 
mapred. binary. partitioner. right. offset i P TyP: g 


offset 
mapred. cache. archives mapreduce. job. cache. archives 
mapred. cache. archives. timestamps mapreduce. job. cache. archives. timestamps 


mapred. cache. files mapreduce. job. cache. files 
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续 表 

Hadoop 1.0 属性 名 称 Hadoop 2. 0 属性 名 称 
mapred. cache. files. timestamps mapreduce. job. cache. files. timestamps 
mapred. cache. localArchives mapreduce. job. cache. local. archives 
mapred. cache. localFiles mapreduce. job. cache. local. files 
mapred. child. tmp mapreduce. task. tmp. dir 
mapred. cluster. average. blacklist. threshold mapreduce. jobtracker. blacklist. average. threshold 
mapred. cluster. map. memory. mb mapreduce. cluster. mapmemory. mb 
mapred. cluster. max. map. memory. mb mapreduce. jobtracker. maxmapmemory. mb 
mapred. cluster. max. reduce. memory. mb mapreduce. jobtracker. maxreducememory. mb 
mapred. cluster. reduce. memory. mb mapreduce, cluster. reducememory. mb 
mapred. committer. job. setup. cleanup. needed mapreduce. job. committer. setup. cleanup. needed 
mapred. compress. map. output mapreduce, map. output. compress 
mapred. data. field. separator mapreduce, fieldsel. data. field. separator 
mapred. debug. out. lines mapreduce. task. debugout. lines 
mapred. healthChecker. interval mapreduce. tasktracker. healthchecker. interval 
mapred. healthChecker. script. args mapreduce. tasktracker. healthchecker. script. args 
mapred. healthChecker. script. path mapreduce. tasktracker. healthchecker. script. path 


duce. tasktracker. healthchecker. ipt. 
mapred. healthChecker. script. timeout ME DEI MA 


timeout 
mapred. heartbeats. in. second mapreduce. jobtracker. heartbeats. in. second 
mapred. hosts. exclude mapreduce. jobtracker. hosts. exclude. filename 
mapred. hosts mapreduce. jobtracker. hosts. filename 
mapred. inmem. merge. threshold mapreduce. reduce. merge. inmem. threshold 
mapred. input. dir. formats mapreduce. input. multipleinputs. dir. formats 
mapred. input. dir. mappers mapreduce. input. multipleinputs. dir. mappers 
mapred. input. dir mapreduce. input. fileinputformat. inputdir 
mapred. input. pathFilter. class mapreduce. input. pathFilter. class 
mapred. jar mapreduce. job. jar 
mapred. job. classpath. archives mapreduce. job. classpath. archives 
mapred. job. classpath. files mapreduce. job. classpath. files 
mapred. job. id mapreduce. job. id 


mapred. jobinit. threads mapreduce. jobtracker. jobinit. threads 
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续 表 
Hadoop 1.0 属性 名 称 Hadoop 2.0 属性 名 称 
mapred. job. map. memory. mb mapreduce. map. memory. mb 
mapred. job. name mapreduce. job. name 
mapred. job. priority mapreduce. job. priority 


mapred. job. queue. name 


mapreduce. 


job. queuename 


mapred. job. reduce. input. buffer. percent mapreduce. reduce. input. buffer. percent 

mapred. job. reduce. markreset. buffer. percent mapreduce. reduce. markreset. buffer. percent 
mapred. job. reduce. memory. mb mapreduce. reduce. memory. mb 

mapred. job. reduce. total. mem. bytes mapreduce. reduce. memory. totalbytes 

mapred. job. reuse. jvm. num. tasks mapreduce. job. jvm. numtasks 

mapred. job. shuffle. input. buffer. percent mapreduce. reduce. shuffle. input. buffer. percent 
mapred. job. shuffle. merge. percent mapreduce, reduce, shuffle. merge. percent 
mapred. job. tracker. handler. count mapreduce, jobtracker. handler. count 

mapred. job. tracker. history. completed. location DU jobttseken... Jobbistorys. completed; 
mapred. job. tracker. http. address mapreduce. jobtracker. http. address 


mapred. jobtracker. instrumentation 


mapreduce. 


jobtracker. instrumentation 


mapred. jobtracker. job. history. block. size mapreduce. jobtracker. jobhistory. block. size 
mapred. job. tracker. jobhistory. lru. cache. size mapreduce. jobtracker. jobhistory. lru. cache. size 
mapred. job. tracker mapreduce. jobtracker. address 

mapred. jobtracker. maxtasks. per. job mapreduce. jobtracker. maxtasks. perjob 

mapred. job. tracker. persist. jobstatus. active mapreduce. jobtracker. persist. jobstatus. active 
mapred. job. tracker. persist. jobstatus. dir mapreduce. jobtracker. persist. jobstatus. dir 
mapred. job. tracker. persist. jobstatus. hours mapreduce. jobtracker. persist. jobstatus. hours 
mapred. jobtracker. restart. recover mapreduce. jobtracker. restart. recover 

mapred. job. tracker. retiredjobs. cache. size mapreduce. jobtracker. retiredjobs. cache. size 
mapred. job. tracker. retire. jobs mapreduce. jobtracker. retirejobs 

mapred. jobtracker. taskalloc. capacitypad nd jobtracker. taskscheduler. taskalloc. 
mapred. jobtracker. taskScheduler mapreduce. jobtracker. taskscheduler 


mapred. jobtracker. taskScheduler. maxRunning- 
TasksPerJob 


mapreduce. jobtracker. taskscheduler. maxrunningtasks. 


perjob 


mapred. join. expr 


mapreduce. 


. join. expr 
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续 表 


Hadoop 1.0 属性 名 称 


Hadoop 2.0 属性 名 称 


mapred. join. keycomparator 


mapreduce. join. keycomparator 


mapred. lazy. output. format 


mapreduce. output. lazyoutputformat. outputformat 


mapred. line. input. format. linespermap 


mapreduce. input. lineinputformat. linespermap 


mapred. linerecordreader. maxlength 


mapreduce. input. linerecordreader. line. maxlength 


mapred. local. dir 


mapreduce, cluster. local. dir 


mapred. local. dir. minspacekill 


mapreduce. tasktracker. local. dir. minspacekill 


mapred. local. dir. minspacestart 


mapreduce, tasktracker. local. dir. minspacestart 


mapred. map. child. env 


mapreduce. map. env 


mapred. map. child. java. opts 


mapreduce. map. java. opts 


mapred. map. child. log. level 


mapreduce. map. log. level 


mapred. map. max. attempts 


mapreduce. map. maxattempts 


mapred. map. output. compression. codec 


mapreduce, map. output. compress. codec 


mapred. mapoutput. key. class 


mapreduce. map. output, key. class 


mapred. mapoutput. value. class 


mapreduce. map. output, value. class 


mapred. mapper. regex. group 


mapreduce. mapper. regexmapper. . group 


mapred. mapper. regex 


mapreduce. mapper. regex 


mapred. map. task. debug. script 


mapreduce. map. debug. script 


mapred. map. tasks 


mapreduce. job. maps 


mapred. map. tasks. speculative. execution 


mapreduce. map. speculative 


mapred. max. map. failures. percent 


mapreduce. map. failures. maxpercent 


mapred. max. reduce. failures. percent 


mapreduce. reduce. failures. maxpercent 


mapred. max. split. size 


mapreduce. input. fileinputformat. split. maxsize 


mapred. max. tracker. blacklists 


mapreduce. jobtracker. tasktracker. maxblacklists 


mapred. max. tracker. failures 


mapreduce. job. maxtaskfailures. per. tracker 


mapred. merge. recordsBeforeProgress 


mapreduce. task. merge. progress. records 


mapred. min. split. size 


mapreduce. input. fileinputformat. split. minsize 


mapred. min. split. size. per. node 


mapreduce. input. fileinputformat. split. minsize. 
per. node 


mapred. min. split. size. per. rack 


mapreduce. input. fileinputformat. split. minsize. 
per. rack 


mapred. output. compression. codec 


mapreduce. output. fileoutputformat. compress. 


codec 


HR Qut 


续 表 


Hadoop 1.0 属性 名 称 


Hadoop 2.0 属性 名 称 


mapred. output. compression. type 


mapreduce. output. fileoutputformat. compress. 
type 


mapred. output. compress 


mapreduce. output. fileoutputformat. compress 


mapred. output. dir 


mapreduce. output. fileoutputformat. outputdir 


mapred. output, key. class 


mapreduce. job. output. key. class 


mapred. output. key. comparator. class 


mapreduce. job. output. key. comparator. class 


mapred. output, value. class 


mapreduce. job. output. value. class 


mapred. output, value. groupfn. class 


mapreduce. job. output. group. comparator, class 


mapred. permissions. supergroup 


mapreduce. cluster. permissions. supergroup 


mapred. pipes. user. inputformat 


mapreduce. pipes. inputformat 


mapred. reduce. child. env 


mapreduce. reduce. env 


mapred. reduce. child. java. opts 


mapreduce. reduce. java. opts 


mapred. reduce. child. log. level 


mapreduce. reduce. log. level 


mapred. reduce. max. attempts 


mapreduce. reduce. maxattempts 


mapred. reduce. parallel. copies 


mapreduce, reduce. shuffle. parallelcopies 


mapred. reduce. slowstart. completed. maps 


mapreduce. job. reduce. slowstart. completedmaps 


mapred. reduce. task. debug. script 


mapreduce, reduce. debug. script 


mapred. reduce. tasks 


mapreduce. job. reduces 


mapred. reduce. tasks. speculative. execution 


mapreduce. reduce. speculative 


mapred. seqbinary. output. key. class 


mapreduce. output. seqbinaryoutputformat. key. 
class 


mapred. seqbinary. output. value. class 


mapreduce. output. seqbinaryoutputformat. value. 
class 


mapred. shuffle. connect. timeout 


mapreduce. reduce. shuffle. connect. timeout 


mapred. shuffle. read. timeout 


mapreduce. reduce. shuffle. read. timeout 


mapred. skip. attempts. to. start. skipping 


mapreduce. task. skip. start. attempts 


mapred. skip. map. auto. incr. proc. count 


mapreduce. map. skip. proc-count. auto-incr 


mapred. skip. map. max. skip. records 


mapreduce. map. skip. maxrecords 


mapred. skip. on 


mapreduce. job. skiprecords 


mapred. skip. out. dir 


mapreduce. job. skip. outdir 


mapred. skip. reduce. auto. incr. proc. count 


mapreduce. reduce. skip. proc-count. auto-incr 


mapred. skip. reduce. max. skip. groups 


mapreduce. reduce. skip. maxgroups 
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pr 
Hadoop 1.0 属性 名 称 Hadoop 2.0 属性 名 称 

d. lative. ion.  slowNod 
DR ¿sana FAO dnd mapreduce. job. speculative. slownodethreshold 
Threshold 

d. lati ion. lowTask- 
POPIS 于 和 omm mapreduce. job. speculative. slowtaskthreshold 
Threshold 


mapred. speculative. execution. speculativeCap 


mapreduce. job. speculative. speculativecap 


mapred. submit. replication 


mapreduce. client. submit, file. replication 


mapred. system. dir 


mapreduce. jobtracker. system. dir 


mapred. task. cache. levels 


mapreduce. jobtracker. taskcache. levels 


mapred. task. id 


mapreduce. task. attempt. id 


mapred. task. is. map 


mapreduce. task. ismap 


mapred. task. partition 


mapreduce. task. partition 


mapred. task. profile 


mapreduce, task. profile 


mapred. task. profile, maps 


mapreduce, task. profile, maps 


mapred. task. profile. params 


mapreduce. task. profile. params 


mapred. task. profile. reduces 


mapreduce. task. profile. reduces 


mapred. task. timeout 


mapreduce. task. timeout 


mapred. tasktracker. dns. interface 


mapreduce. tasktracker. dns. interface 


mapred. tasktracker. dns. nameserver 


mapreduce, tasktracker. dns. nameserver 


mapred. tasktracker. events, batchsize 


mapreduce. tasktracker. events. batchsize 


mapred. tasktracker. expiry. interval 


mapreduce. jobtracker. expire. trackers. interval 


mapred. task. tracker. http. address 


mapreduce. tasktracker. http. address 


mapred. tasktracker. indexcache. mb 


mapreduce. tasktracker. indexcache. mb 


mapred. tasktracker. instrumentation 


mapreduce. tasktracker. instrumentation 


mapred. tasktracker. map. tasks. maximum 


mapreduce. tasktracker. map. tasks. maximum 


mapred. tasktracker. memorycalculatorplugin 


mapreduce. tasktracker. resourcecalculatorplugin 


mapred. tasktracker. reduce. tasks. maximum 


mapreduce. tasktracker. reduce. tasks. maximum 


mapred. task. tracker. report. address 


mapreduce. tasktracker. report. address 


mapred. task. tracker. task-controller 


mapreduce. tasktracker. taskcontroller 


mapred. tasktracker. taskmemorymanager. 


monitoring-interval 


mapreduce. tasktracker. taskmemorymanager. 
monitoringinterval 


mapred. tasktracker. tasks. sleeptime-before-sigkill 


mapreduce. tasktracker. tasks. sleeptimebeforesigkill 


mapred. temp. dir 


mapreduce. cluster. temp. dir 
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Hadoop 1.0 属性 名 称 


Hadoop 2.0 属性 名 称 


mapred. text. key. comparator. options 


mapreduce. partition. keycomparator. options 


mapred. text. key. partitioner. options 


mapreduce. partition. keypartitioner. options 


mapred. textoutputformat. separator 


mapreduce. output. textoutputformat. separator 


mapred. tip. id 


mapreduce. task. id 


mapreduce. combine. class 


mapreduce. job. combine. class 


mapreduce. inputformat. class 


mapreduce. job. inputformat. class 


mapreduce. job. counters. limit 


mapreduce. job. counters. max 


mapreduce. jobtracker. permissions. supergroup 


mapreduce. cluster. permissions. supergroup 


mapreduce. map. class 


mapreduce. job. map. class 


mapreduce. outputformat, class 


mapreduce. job. outputformat, class 


mapreduce. partitioner. class 


mapreduce. job. partitioner, class 


mapreduce, reduce. class 


mapreduce. job. reduce. class 


mapred. used. genericoptionsparser 


mapreduce. client. genericoptionsparser. used 


mapred. userlog. limit. kb 


mapreduce. task. userlog. limit. kb 


mapred. userlog. retain, hours 


mapreduce. job. userlog. retain. hours 


mapred. working. dir 


mapreduce. job. working. dir 


mapred. work. output. dir 


mapreduce. task. output. dir 


min. num. spills. for. combine 


mapreduce. map. combine. minspills 


reduce, output. key. value. fields. spec 


mapreduce. fieldsel. reduce. output. key. value. 
fields. spec 


security. job. submission. protocol. acl 


security. job. client. protocol. acl 


security. task. umbilical. protocol. acl 


security. job. task. protocol. acl 


sequencefile. filter. class 


mapreduce. input. sequencefileinputfilter. class 


sequencefile. filter. frequency 


mapreduce. 
frequency 


input. sequencefileinputfilter. 


sequencefile. filter. regex 


mapreduce. input. sequencefileinputfilter. regex 


session. id 


dfs. metrics. session-id 


slave. host. name 


dfs. datanode. hostname 


slave. host. name 


mapreduce. tasktracker. host. name 


tasktracker. contention. tracking 


mapreduce. tasktracker. contention. tracking 


tasktracker. http. threads 


mapreduce. tasktracker. http. threads 


topology. node. switch. mapping. impl 


net. topology. node. switch. mapping. impl 
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Hadoop 1.0 属性 名 称 


Hadoop 2.0 属性 名 称 


topology. script. file. name 


net. topology. script. file. name 


topology. script. number. args 


net. topology. script. number. args 


user. name 


mapreduce. job. user. name 


webinterface. private. actions 


mapreduce. jobtracker. webinterface. trusted 


附 表 3 HBase 默认 配置 说 明 


配置 参数 


说 B 


hbase. rootdir 


设置 HRegionServer 的 共享 目录 ,默认 值 为 : file: ///tmp/ 


hbase- $ {user. name) /hbase 


hbase. master 


HBase 的 HMaster 的 端口 ,默认 端口 号 为 : 60 000 


hbase. cluster. distributed 


设置 HBase 的 运行 模式 ,默认 值 为 false 


hbase. tmp. dir 


设置 本 地 文件 系统 的 临时 文件 夹 ,默认 值 为 : /tmp/hbase- 


$ (user. name} 


hbase. master. info. port 


HMaster Web 界面 端口 ,默认 值 为 : 16 010 


hbase. master. info. bindAddress 


HMaster Web 界面 绑 定 的 端口 ,默认 值 为 : 0. 0. 0.0 


hbase. client. write. buffer 


设置 HTable 客户 端的 写 缓冲 的 默认 大 小 ,这 个 值 越 大 , 需 
要 消耗 的 内 存 越 大 ,默认 : 2 097 152 


hbase. regionserver. port 


HRegionServer 绑 定 的 端口 ,默认 : 60 020 


hbase. regionserver. info. port 


HRegionServer Web 界面 绑 定 的 端口 ,默认 : 60 030 


hbase. regionserver. info. port. auto 


HMaster 或 HRegionServer 是 否 要 动态 搜 一 个 可 以 用 的 端 
口 来 绑 定 界面 ,默认 : false 


hbase. regionserver. info. bindAddress 


HRegionServer Web 界面 的 IP 地 址 ,默认 : 0.0.0.0 


hbase. regionserver. class 


HRegionServer 使 用 的 接口 ,上 默认: org. apache. hadoop. 
hbase. ipc. HRegionInterface 


hbase. client. pause 


设置 客户 端 暂停 时 间 ,默认 : 1000 


hbase. client. retries. number 


设置 重 试 次 数 ,默认 为: 10 


hbase. client. scanner. caching 


设置 从 服务 端 一 次 获取 的 行 数 ,默认 为 : 1 


hbase. client. keyvalue. maxsize 


一 个 KeyValue 实例 的 最 大 size, 默 认 : 10 485 760 


hbase. regionserver. lease. period 


客户 端 租用 HRegionServer 期 限 , 即 超时 间 值 ,默认 ， 
60 000 


hbase. regionserver. handler. count 


RegionServers 受理 的 RPC Server 实例 数量 ,默认 : 10 


hbase. regionserver. msginterval 


HRegionServer 发 消息 给 HMaster 时 间 间 隔 , 单 位 是 ms， 
默认 : 3000 


hbase. regionserver. optionallogflushinterval 


将 Hlog 同步 到 HDFS 的 间隔 ,默认 : 1000 
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hbase. regionserver. regionSplitLimit 


region 的 数量 到 了 这 个 值 后 就 不 会 再 分 裂 了 ,默认 : 
2 147 483 647 


hbase. regionserver. logroll. period 


提交 commit log 的 间隔 ,默认 : 3 600 000 


HLog file reader 的 实现 


hbase. regionserver. hlog. reader. impl ER dA: org. apache. hadoop. hbase.  regionserver. 
wal. SequenceFileLogReader 
HLog file writer 的 实现 

hbase. regionserver. hlog. writer. impl ER 认 : org. apache. hadoop. hbase.  regionserver. 


wal. SequenceFileLogWriter 


hbase. regionserver. thread. 
splitcompactcheckfrequency 


HRegionServer 多 久 执 行 一 次 split/compaction 检查 ,默认 : 
20 000 


hbase. regionserver. nbreservationblocks 


储备 的 内 存 block 的 数量 ,默认 : 4 


hbase. zookeeper. dns. interface 


当 使 用 DNS 的 时 候 ,ZooKeeper 用 来 上 报 的 IP 地 址 的 网 络 
接口 名 字 


hbase. zookeeper. dns. nameserver 


当 使 用 DNS 的 时 候 ,ZooKeepr 使 用 的 DNS 的 域名 或 者 IP 
地 址 


hbase. regionserver. dns. interface 


当 使 用 DNS 的 时 候 ,RegionServer 用 来 上 报 的 IP 地 址 的 网 
络 接口 名 字 


hbase. regionserver. dns. nameserver 


当 使 用 DNS 的 时 候 ,RegionServer 使 用 的 DNS 的 域名 或 者 
IP 地 址 


hbase. master. dns. interface 


当 使 用 DNS 的 时 候 ,Master 用 来 上 报 的 IP 地 址 的 网 络 接 
口 名 字 


hbase. master. dns. nameserver 


当 使 用 DNS 的 时 候 , Master 使 用 的 DNS 的 域名 或 者 IP 
地 址 


hbase. balancer. period 


HMaster 执行 region balancer 的 间隔 ,默认 : 300 000 


hbase. regions. slop 


当 任 一 HRegionServer 有 average + (average X slop) 个 
region 时 会 执行 Rebalance 


hbase. master. logcleaner. ttl 


Hlog 存在 于 . oldlogdir 文件 夹 的 最 长 时 间 ,默认 : 600 000 


hbase. master. logcleaner. plugins 


LogsCleaner 服务 器 执行 的 一 组 LogCleanerDelegat , fi JH 3 
号 间隔 的 文本 表示 , 默认 : org. apache. hadoop. hbase. 


master. TimeToLiveLogCleaner 


hbase. regionserver. global. memstore. 
upperLimit 


单个 HRegionServer 的 全 部 memtores 的 最 大 值 ,默认 : 0.4 


hbase. regionserver. global. memstore. 
lowerLimit 


当 强 制 执行 flush 操作 的 时 候 , 当 低 于 这 个 值 的 时 候 ,flush 
会 停止 ,默认 : 0. 35 


hbase. server. thread. wakefrequency 


service 工作 的 sleep 间隔 ,单位 ms, 默 认 : 10 000 


hbase. hregion. memstore. flush. size 


当 memstore 的 大 小 超过 这 个 值 的 时 候 , 会 flush 到 磁盘 , 默 
认 : 67 108 864 
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hbase. hregion. preclose. flush. size 


当 一 个 region 中 的 memstore 大 于 这 个 值 的 时 候 ,我们 又 触 
发 了 close. ,会 先 运行 pre-flush 操作 ,清理 这 个 需要 关闭 的 
memstore, 然 后 将 这 个 region 下 线 ,默认 : 5 242 880 


hbase. 


multiplier 


hregion. memstore. block. 


如 果 memstore 有 hbase. hregion. memstore. block. 
multiplier 倍数 的 hbase. hregion. flush. size 的 大 小 ,就 会 阻 
Æ update 操作 ,这 是 为 了 预防 在 update 高 峰 期 会 导致 的 失 
控 , 默 认 : 2 


hbase. hregion. memstore. mslab. enabled 


启用 memstore 分 配 本 地 缓冲 区 ,默认 : false 


hbase. hregion. max. filesize 


最 大 HStoreFile 大 小 ,默认 : 268 435 456 


hbase. hstore. compactionThreshold 


当 一 个 HStore 含有 多 于 这 个 值 的 HStoreFiles (每 一 个 
memstore flush 产生 一 个 HStoreFile) 的 时 候 , 会 执行 一 个 
合并 操作 ,把 这 HStoreFiles 写成 一 个 ,默认 : 3 


hbase. hstore. blockingStoreFiles 


当 一 个 HStore 含有 多 于 这 个 值 的 HStoreFiles (每 一 个 
memstore flush 产生 一 个 HStoreFile) 的 时 候 , 会 执行 一 个 
合并 操作 ,update 会 阻塞 直到 合并 完成 ,直到 超过 了 hbase. 
hstore. blockingWaitTime 的 值 ,默认 : 7 


hbase. hstore. blockingWaitTime 


hbase. hstore. blockingStoreFiles 所 限制 的 StoreFile 数量 会 
导致 update 阻塞 ,这 个 时 间 是 用 来 限制 阻塞 时 间 的 ,默认 : 
90 000 


hbase. hstore. compaction. max 


每 个 “小 ”合并 的 HStoreFiles 最 大 数量 ,默认 : 10 


hbase. hregion. majorcompaction 


一 个 Region 中 的 所 有 HStoreFile 的 major compactions 的 
时 间 间 隔 , 默 认 是 1 天 


hbase. mapreduce. hfileoutputformat. 
blocksize 


MapReduce 中 HFileOutputFormat 可 以 写 storefiles/ 
hfiles. 这 个 值 是 hfile 的 blocksize 的 最 小 值 ,默认 : 65 536 


hfile. block. cache. size 


分 配给 HFile/StoreFile 的 block cache 占 最 大 堆 (-Xmx 
setting) 的 比例 ,默认 : 0. 2 


hbase. hash. type 


哈 希 函数 使 用 的 哈 希 算法 ,默认 : murmur. 


hbase. master. keytab. file 


HMaster server 验证 登录 使 用 的 kerberos keytab 文件 路 径 


hbase. master. kerberos. principal 


HMaster 运行 需要 使 用 kerberos principal name 


hbase. regionserver. keytab. file 


HRegionServer 验证 登录 使 用 的 kerberos keytab 文件 路 径 


hbase. regionserver. kerberos. principal 


HRegionServer 运行 需要 使 用 kerberos principal name 


zookeeper. session. timeout 


ZooKeeper 会 话 超时 ,HBase 把 这 个 值 传递 改 zk 集群 ,向 它 
推荐 一 个 会 话 的 最 大 超时 时 间 ,默认 : 180 000 


Zookeeper. znode. parent 


ZooKeeper 中 的 HBase 的 根 ZNode, 默 认 : /hbase 


zookeeper. znode. rootserver 


ZNode 保存 的 根 region 的 路 径 ,默认 : root-region-server 


hbase. zookeeper. quorum 


ZooKeeper 集群 的 地 址 列表 ,用 逗号 分 隔 , 默 认 : localhost 


hbase. zookeeper. peerport 


ZooKeeper 节点 使 用 的 端口 ,默认 : 2888 
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hbase. zookeeper. leaderport 


ZooKeeper 用 来 选择 Leader 的 端口 ,默认 : 3888 


hbase. zookeeper. property. initLimit 


ZooKeeper 的 zoo. conf 中 的 配置 初始 化 synchronization 阶 
E ticks 数量 限制 ,默认 : 10 


hbase. zookeeper. property. syncLimit 


ZooKeeper 的 zoo. conf 中 的 配置 发 送 一 个 请 求 到 获得 承认 
之 间 的 ticks 的 数量 限制 ,默认 : 5 


hbase. zookeeper. property. dataDir 


ZooKeeper 的 zoo. conf 中 的 配置 快照 的 存储 位 置 ,默认 : 
$ {hbase. tmp. dir) /zookeeper 


hbase. zookeeper. property. clientPort 


ZooKeeper 的 zoo. conf 中 配置 客户 端 连接 端口 ,默认 : 2181 


hbase. zookeeper. property. 
maxClientCnxns 


ZooKeeper 的 zoo. conf 中 的 配置 ,默认 : 2000 


hbase. rest. port 


HBase REST Server 的 端口 ,默认 : 8080 


hbase. rest. readonly 


定义 REST Server 的 运行 模式 ,false: 所 有 的 HTTP 请 求 
都 是 被 允许 的 - GET/PUT/POST/DELETE; true: 只 有 
GET 请 求 是 被 允许 的 


附 表 4 Hive 默认 配置 说 明 


配置 参数 


说 明 


hive. exec. max. created. files 


所 有 Hive 运行 的 Map 与 Reduce 任务 可 以 产生 的 文件 的 
和 ,默认 值 : 100 000 


hive. exec. dynamic. partition 


是 否 为 自动 分 区 ,默认 值 : false 


hive. mapred. reduce. tasks. speculative. 
execution 


是 否 打开 推 测 执行 ,默认 值 : true 


hive. input, format 


Hive 默认 的 输入 格式 ,默认 值 : org. apache. hadoop. hive. 


ql. io. CombineHiveInputFormat 


hive. exec. counters. pull. interval 


Hive 与 JobTracker 拉 取 counter 信息 的 时 间 , 默认 
值 : 1000ms 


hive. script. recordreader 


使 用 脚本 时 默认 的 读 取 类 ,默认 值 : org. apache. hadoop. 


hive. ql. exec. TextRecordReader 


hive. script. recordwriter 


使 用 脚本 时 默认 的 数据 写 入 类 ,默认 值 : org. apache. 


hadoop. hive. ql. exec. TextRecordWriter 


hive. mapjoin. check. memory. rows 


内 存 里 可 以 存储 数据 的 行 数 ,默认 值 : 100 000 


hive. mapjoin. smalltable. filesize 


输入 小 表 的 文件 大 小 的 阔 值 ,如果 小 于 该 值 , 就 采用 普通 的 
join, 默 认 值 : 25 000 000 


hive. auto. convert. join 


是 不 是 依据 输入 文件 的 大 小 ,将 Join 转 成 普通 的 Map Join， 
默认 值 : false 


hive. mapjoin. followby. gby. localtask. 
max. memory. usage 


Map Join 做 group by 操作 时 ,可 以 使 用 多 大 的 内 存 来 存储 
数据 ,默认 值 : 0. 55 


hive. mapjoin. localtask. max. memory. 


usage 


本 地 任务 可 以 使 用 内 存 的 百分比 ,默认 值 : 0. 90 
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hive. heartbeat. interval 


在 进行 MapJoin 与 过 滤 操 作 时 ,发 送 心跳 的 时 间 , 默 认 
值 : 1000 


hive. merge. size. per. task 


合并 后 文件 的 大 小 ,默认 值 : 256 000 000 


hive. mergejob. maponly 


在 只 有 Map 任务 的 时 候 合并 输出 结果 ,默认 值 : true 


hive. merge. mapredfiles 


正常 map-only job 后 ,是 否 启动 meroe job 来 合并 map 端 输 
出 的 结果 ,默认 值 : false 


hive. hwi. listen. host 


Hive UI 默认 的 host, 默 认 值 : 0.0.0.0 


hive. hwi. listen. port 


UI 监听 端口 ,默认 值 : 9999 


hive. exec. parallel. thread. number 


Hive 可 以 并 行 处 理 Job 的 线程 数 ,默认 值 : 8 


hive. exec. parallel 


是 否 并 行 提交 任务 ,默认 值 : false 


hive. exec. compress. output 


输出 使 用 压缩 ,默认 值 : false 


hive. mapred. mode 


MapReduce 的 操作 的 限制 模式 ,操作 的 运行 在 该 模式 下 没 
有 什么 限制 ,默认 值 : nonstrict 


hive. join. cache. size 


join 操作 时 ,可 以 存在 内 存 里 的 条 数 , 默 认 值 : 25 000 


hive. mapjoin. cache. numrows 


Map Join 存在 内 存 里 的 数据 量 , 默 认 值 : 25 000 


hive. join. emit. interval 


有 连接 时 Hive 在 输出 前 缓存 的 时 间 , 默 认 值 ; 1000 


hive. optimize. groupby 


在 做 分 组 统计 时 ,是 否 使 用 bucket table, 默 认 值 : true 


hive. fileformat. check 


是 否 检测 文件 输入 格式 ,默认 值 : true 


hive. metastore. client. connect. retry. 


delay 


Client 连接 失败 时 ,retry 的 时 间 间 隔 ,默认 值 : 1s 


hive. metastore. client. socket. timeout 


Client Socket 的 超时 时 间 ,默认 值 : 20s 


mapred. reduce. tasks 


每 个 任务 Reduce 的 默认 值 ,默认 值 : 一 1, 表 示 自 动 根 据 作 
业 的 情况 来 设置 Reduce 的 值 


hive. exec. reducers. bytes. per. reducer 


每 个 Reduce 接受 的 数据 量 , 默 认 值 : 1 000 000 000(1G)， 
如 果 送 到 Reduce 的 数据 为 10G, 那 么 将 生成 10 个 Reduce 
任务 


hive. exec. reducers. max 


Reduce 的 最 大 个 数 ,默认 值 : 999 


hive. metastore. warehouse. dir 


默认 的 数据 库存 放 位 置 ,默认 值 : /user/hive/ warehouse 


hive. default. fileformat 


默认 的 文件 格式 ,默认 值 : TextFile 


hive. map. aggr 


Map 端 聚合 ,相当 于 Combiner, 默 认 值 true 


hive. exec. max. dynamic. partitions. 


pernode 


每 个 任务 节点 可 以 产生 的 最 大 的 分 区 数 ,默认 值 : 100 


hive. exec. max. dynamic. partitions 


默认 的 可 以 创建 的 分 区 数 ,默认 值 : 1000 


hive. metastore. server. max. threads 


Metastore 默认 的 最 大 的 处 理 线程 数 ,默认 值 : 100 000 


hive. metastore. server. min. threads 


Metastore 默认 的 最 小 的 处 理 线程 数 , 默 认 值 : 200 
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hive. exec. mode. local. auto 


决定 是 否 开启 Hive 的 本 地 模式 ,默认 值 : true 


hive. exec. mode. local. auto. inputbytes. 


max 


如 果 hive. exec. mode. local. auto 为 true, 当 输 入 文件 小 于 
此 阅 值 时 可 以 自动 在 本 地 模式 运行 ,默认 值 : 134 217 728L 


hive. exec. mode. local. auto. tasks. max 


如 果 hive. exec. mode. local. auto 为 true, 当 Hive Tasks 
(Hadoop Jobs) 小 于 此 阔 值 时 ,可 以 自动 在 本 地 模式 运行 ， 
默认 值 : 4 


hive. auto. convert, join 


是 否 根据 输入 小 表 的 大 小 ,自动 将 Reduce 端的 Common 
Join 转化 为 Map Join, 从 而 加 快 大 表 关 联 小 表 的 Join 速 
度 ,默认 值 : false 


hive. mapred. local. mem 


Mapper/Reducer 在 本 地 模式 的 最 大 内 存量 ,以 字 节 为 单 
位 ,0 为 不 限制 ,默认 值 : 0 


mapred. reduce. tasks 


所 提交 Job 的 Reducer 的 个 数 ,使 用 Hadoop Client 的 配 
置 ,默认 值 : 1 


hive. exec. scratchdir 


HDFS 路径 ,用 于 存储 不 同 Map/Reduce 阶段 的 执行 计划 和 这 
些 阶 段 的 中 间 输 出 结果 ,默认 值 : / tmp/ <user. name>> /hive 


hive. groupby. skewindata 


决定 group by 操作 是 否 支 持 倾斜 的 数据 ,默认 值 : false 


hive. merge. mapfiles 


是 否 开启 合并 Map 端 小 文件 ,对 于 Hadoop 0. 20 以 前 的 版 
本 ,启用 新 的 Map/Reduce Job, 对 于 0. 20 以 后 的 版 本 , 则 
是 使 用 CombineInputFormat 的 MapOnly Job, 默认 
值 : true 


hive. security. authorization, enabled 


Hive 是 否 开启 权限 认证 ,默认 值 : false 


hive. exec. plan 


Hive 执行 计划 的 路 径 , 会 在 程序 中 自动 进行 设置 ,默认 
值 : null 


hive. exec. submitviachild 


决定 Map/Reduce Job 是 否 应 该 使 用 各 自 独立 的 JVM 进 
行 提交 (Child 进程 ) ,默认 情况 下 ,使 用 与 HQL compiler 相 
同 的 JVM 进行 提交 ,默认 值 : false 


hive. exec. script. maxerrsize 


通过 TRANSFROM/MAP/REDUCE 所 执行 的 用 户 脚 本 所 
允许 的 最 大 的 序列 化 错误 数 ,默认 值 : 100 000 


hive. exec. script. allow. 


consumption 


partial. 


是 否 允 许 脚 本 只 处 理 部 分 数据 ,如 果 设 置 为 true, 因 broken 
pipe 等 造成 的 数据 未 处 理 完成 将 视 为 正常 ,默认 值 : false 


hive. exec. compress. intermediate 


决定 查询 的 中 间 Map/Reduce job (中 间 stage) 的 输出 是 否 
为 压缩 格式 ,默认 值 : false 


hive. intermediate. compression. codec 


中 间 Map/Reduce Job 的 压缩 编 解 码 器 的 类 名 (一 个 压缩 编 
解码 器 可 能 包含 多 种 压缩 类 型 ) ,该 值 可 能 在 程序 中 被 自动 
设置 


hive. intermediate. compression. type 


设置 中 间 Map/Reduce job 的 压缩 类 型 ,如 "BLOCK"、 
"RECORD" 


hive. exec. pre. hooks 


语句 层面 , 整 条 HQL 语句 在 执行 前 的 hook 类 名 
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hive. exec. post. hooks 


语句 层面 , 整 条 HQL 语句 在 执行 完成 后 的 hook 类 名 


hive. exec. dynamic. partition. mode 


打开 动态 分 区 后 ,动态 分 区 的 模式 ,有 strict 和 nonstrict 两 
个 值 可 选 ,strict 要 求 至 少 包 含 一 个 静态 分 区 列 , nonstrict 
则 无 此 要 求 ,默认 值 strict 


hive. exec. default. partition. name 


默认 的 动态 分 区 的 名 称 , 当 动态 分 区 列 为 null 时 ,使 用 此 名 
称 : ' _HIVE_DEFAULT_PARTITION__' 


hive. metastore, metadb. dir 


Hive 元 数据 库 所 在 路 径 


hive. metastore. uris 


Hive 元 数据 的 URI, 多 个 thrift:// 地 址 ,以 英文 逗号 分 隔 


hive. metastore. connect, retries 


连接 到 Thrift 元 数据 服务 的 最 大 重 试 次 数 ,默认 值 : 3 


hive. metastore. ds. connection, url. hook 


JDO 连接 URL Hook 的 类 名 ,该 Hook 用 于 获得 JDO 元 数 
据 库 的 连接 字符 串 ,为 实现 了 JDOConnectionURLHook 接 
口 的 类 


javax. jdo. option. ConnectionPassword 


JDO 的 连接 密码 


javax. jdo. option. ConnectionURL 


元 数据 库 的 连接 URL 


hive. metastore. ds. retry. attempts 


当 没 有 JDO 数据 连接 错误 后 ,尝试 连接 后 台数 据 存储 的 最 
大 次 数 ,默认 值 : 1 


hive. metastore. ds. retry. interval 


每 次 尝试 连接 后 台数 据 存储 的 时 间 间 隔 , 以 ms 为 单位 , 默 
Afi: 1000 
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